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1.1 Tematyka, zakres, teza oraz cele rozprawy 


Prezentowana rozprawa zajmuje się zagadnieniami detekcji i śledzenia ruchu za pomocą 
komputerowego systemu wizyjnego, przy wykorzystaniu modeli statystycznych zwanych 
polami Markowa. Z formalnego punktu widzenia powyższa tematyka może być zaliczona 
do komputerowej analizy obrazów, zwanej również czasami wizją komputerową. 

Szybki postęp technologiczny w dziedzinie sprzętu komputerowego jaki się dokonał 
w ciągu ostatnich lat, z czym wiąże się znaczne zwiększenie możliwości przetwarzania 
informacji, spowodował, że czas potrzebny do prowadzenia komputerowej analizy ru- 
chu przestaje być barierą nie do pokonania. Liczba potencjalnych zastosowań jest bar- 
dzo duża, od nadzorowania ruchu ulicznego [DA92], poprzez analizę ruchu mikroorgani- 
zmów [Kor93], aż do konstrukcji pojazdów bądź obiektów poruszających się bez nadzoru 
człowieka [Pom93, Tsu93]. Z każdym z wymienionych zastosowań wiąże się ogromna liczba 
szczegółowych problemów, które muszą być rozwiązane. To właśnie jest przyczyną roz- 
ległości szeroko rozumianej komputerowej analizy ruchu. Detekcja i śledzenie są tylko 
jednymi z wielu szczegółowych zagadnień. 

Metody wizji komputerowej, zgodnie z propozycją przedstawioną w [Pav87], można 
podzielić na dwie zasadnicze grupy, tzn. na przetwarzanie i rozpoznawanie obrazów. Wy- 
niki otrzymywane poprzez użycie metod z pierwszej grupy stanowią informację wejściową 
dla algorytmów z grupy drugiej. Większość praktycznych zastosowań wykorzystuje me- 
tody z obydwu grup. Rozpoznawanie obrazów, tzn. zamiana informacji jaką jest obraz 
na jego opis, jest zazwyczaj zasadniczym zadaniem systemu wizyjnego. Znaleziona w ten 
sposób informacja może stanowić podstawę np. do wypracowania odpowiednich decyzji 
przez system sterujący. Liczba różnych znanych metod rozpoznawania obrazów jest bardzo 
duża, por. [Pra91, Ś191, TF91, Hor89]. Przetwarzanie obrazów służy często dokonaniu re- 
dukcji informacji obrazowej, aby ułatwić przeprowadzenie rozpoznawania. W dużej liczbie 
przypadków efektem przetwarzania są obrazy binarne. 


Zakres niniejszej rozprawy ograniczono do zagadnień, które można zaliczyć do 
komputerowego przetwarzania obrazów. Zadanie detekcji ruchu rozumiane jest jako po- 
szukiwanie dla obrazu z gradacją szarości odpowiedniego obrazu binarnego, w którym 
odróżnione są piksle poruszającego się obiektu od pozostałych, nazywanych również pik- 
slami tła. Tak postawione zagadnienie można również nazwać poszukiwaniem maski po- 
ruszającego obiektu, gdzie maską nazywamy zbiór piksli obiektu ruchomego. Śledzenie 
ruchu jest utożsamiane ze znalezieniem sekwencji masek obiektu ruchomego odpowiada- 
jącej sekwencji obrazów wejściowych. Przy takim sformułowaniu zagadnienia śledzenie 
jest bardzo ściśle związane z zagadnieniem detekcji ruchu i polega na przeprowadzeniu 
tej detekcji dla całej wejściowej sekwencji obrazów z gradacją szarości. Z tego powodu 
obydwa zagadnienia w całej rozprawie są traktowane w sposób łączny. 

Jako podstawę matematyczną dla tworzenia odpowiedniej metody wybrano staty- 
styczne modele zwane polami Markowa. Zostało to zainspirowane chęcią potwierdzenia 
użyteczności pól Markowa do przeprowadzenia detekcji i śledzenia ruchu. Wybór tych 
modeli został spowodowany również przez stale rosnące zainteresowanie jakim cieszą się 
one wśród twórców algorytmów wizji komputerowej, ze względu na ich następujące cechy: 


e statystyczny charakter, dzięki czemu tworzone na ich bazie metody są bardziej od- 
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porne na szum, gdyż uwzględniają jego istnienie już na etapie modelowania [Pra91, 
TQD86], 


e właściwość lokalnego opisu złożonych problemów z uwzględnieniem wpływu piksli 
sąsiednich. 


Z jednej strony przegląd literatury światowej informuje o dość dużej liczbie nowych metod 
opartych na polach Markowa, z drugiej strony zastosowanie tych modeli do detekcji ru- 
chu nie występuje zbyt często. W opisywanych aplikacjach najczęściej stosuje się metody 
potoku optycznego, natomiast wykrywanie masek obiektu ruchomego występuje rzadziej. 
Z tego powodu sformułowano następującą tezę rozprawy: 


W komputerowej analizie ruchu obiektów znajdujących się w 
polu widzenia kamery, przedstawionych za pomocą sekwencji 
obrazów z gradacją szarości, możliwe jest uefektywnienie de- 
tekcji i śledzenia ruchu przeprowadzanych przy użyciu czasowo- 
-przestrzennego modelowania obrazów, poprzez zmianę wyraże- 
nia energii pola Markowa. 


Aby wykazać słuszność powyższej tezy sformułowano następujące cele rozprawy: 


1. Opracowanie nowego modelu statystycznego, opartego na czasowo-przestrzennych 
ukrytych polach Markowa z dwuwymiarowym wektorem obserwacji, przeznaczonego 
do detekcji masek obiektów ruchomych, uwzględniającego wszystkie możliwości ety- 
kietowania piksla, co nie miało miejsca w modelu dotychczasowym. 


2. Opracowanie modelu statystycznego, opartego na czasowo-przestrzennych ukrytych 
polach Markowa z trójwymiarowym wektorem obserwacji. przeznaczonego do detek- 
cji masek obiektów ruchomych, jako udoskonalenie spotykanych dotychczas modeli 
z obserwacją dwuwymiarową. 


3. Opracowanie inżynierskiej metody budowy modeli statystycznych opartych na po- 
lach Markowa i przeznaczonych do zastosowań w algorytmach komputerowej analizy 
obrazów. 


4. Opracowanie kryterium oceny dokładności masek obiektów ruchomych. znajdowa- 
nych za pomocą modeli statystycznych 


on 


Ocena użyteczności modelu Lalande'a-Bouthemv iego do znajdowania masek obiek- 
tów ruchomych, a w szczególności: 


(a) określenie kryteriów doboru wartości parametrów tego modelu. 
(b) określenie wrażliwości tego modelu na wartości jego parametrów. 


(c) przebadanie dokładności metody 
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. Porównanie efektów otrzymywanych za pomocą nowego modelu z obserwacją dwu- 


wymiarową z tymi, które można otrzymać za pomocą modelu Lalande'a-Bouthe- 
my'iego, a w szczególności przeprowadzenie badań pozwalających na dokonanie 
oceny użyteczności nowego modelu według kryteriów jak w punkcie 5. 


. Opracowanie oraz przebadanie kompleksowej metody detekcji i śledzenia ruchu obiek- 


tów przedstawionych za pomocą sekwencji obrazów z gradacją szarości, a w szcze- 
gólności określenie sposobu doboru wartości parametrów używanego modelu. 


- Opracowanie metody detekcji masek obiektów ruchomych za pomocą sumowania 


masek znajdowanych przy różnych wartościach parametrów pola Markowa odpo- 
wiadających kilku typowym przypadkom. 


. Skrócenie czasu obliczeń potrzebnego do znalezienia sekwencji masek obiektów ru- 


chomych poprzez opracowanie modyfikacji przyspieszającej działanie algorytmu re- 
laksacji deterministycznej używanego do poszukiwania najbardziej prawdopodobnej 
realizacji pola Markowa. 


Dokonanie wyboru optymalnego detektora zmian czasowych zachodzących między 
kolejnymi obrazami sekwencji z punktu widzenia przydatności do otrzymywania 
masek obiektów ruchomych. 


Stworzenie pakietu oprogramowania, umożliwiającego przeprowadzanie detekcji i 
śledzenia ruchu metodami korzystającymi z czasowo-przestrzennych pól Markowa 
na komputerach o architekturze szeregowej. 
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1.2 Streszczenie rozprawy 


Rozprawa przedstawia metody detekcji i śledzenia ruchu niewymagające wyznaczania 
potoku optycznego, a korzystające z czasowo-przestrzennych pól Markowa, jak również 
przykładowe wyniki, które można otrzymać dzięki wykorzystaniu tych metod dla typo- 
wych sekwencji obrazów. Praca zawiera jedenaście rozdziałów, bibliografię oraz dodatek. 
W rozdziale pierwszym (niniejszym) przedstawiono w skrócie cała rozprawę. We wpro- 
wadzającym w tematykę rozdziale drugim opisano obecny stan wiedzy obejmującej za- 
równo komputerową analizę ruchu jak i pola Markowa. Omówienia zagadnień kompu- 
terowej analizy ruchu dokonano opierając się na przeprowadzonych studiach literaturo- 
wych. Zaprezentowana teoria pól Markowa dotyczy przede wszystkim ich wykorzystania 
w komputerowej analizie obrazów. W rozdziale trzecim przedstawiono metodę budowy 
modeli statystycznych korzystających z pól Markowa, będącą oryginalnym opracowaniem 
autora. Metoda powyższa jest też podsumowaniem aktualnego stanu wiedzy dotyczą- 
cego omawianych modeli. W rozdziale czwartym zamieszczono wyniki przeprowadzonych 
przez autora badań różnych znanych z literatury metod detekcji zmian czasowych za- 
chodzących pomiędzy kolejnymi obrazami sekwencji. W rozdziale piątym zajęto się za- 
gadnieniem budowy modeli statystycznych przeznaczonych do detekcji i śledzenia ruchu. 
W szczególności przedstawiono znany z literatury model Lalande'a-Bouthemy'iego, jak 
również zaproponowano model ulepszony, w którym podobnie jak w modelu Lalande’a- 
-Bouthemy 'iego wykorzystywany jest dwuwymiarowy wektor obserwacji. W rozdziale tym 
zamieszczono również oryginalną propozycję modyfikacji algorytmu relaksacji determini- 
stycznej estymacji mody pola Markowa, tzn. poszukiwania najbardziej prawdopodobnej 
realizacji tego pola. W rozdziale szóstym przedstawiono kryterium oceny masek obiektów 
ruchomych znajdowanych przy użyciu modeli statystycznych. W rozdziale siódmym za- 
mieszczono wyniki badań eksperymentalnych metody detekcji masek obiektów ruchomych 
opartej na modelu znanym z literatury. Zawartość rozdziału ósmego jest analogiczna do 
zawartości rozdziału siódmego, z tym, że zaprezentowane wyniki eksperymentów dotyczą 
nowego modelu z dwuwymiarowym wektorem obserwacji. W rozdziale dziewiątym przed- 
stawiono przykładowe wyniki detekcji i śledzenia ruchu dla typowych sekwencji obrazów 
rzeczywistych. Ponadto przedyskutowano zagadnienie detekcji ruchu dla tych sekwencji, 
ze szczególnym uwzględnieniem problemu estymacji parametrów stosowanego modelu oraz 
zagadnienia filtracji masek zmian czasowych i masek obiektów ruchomych. Zastosowanie 
metod filtracji jest niezbędne w przypadku niektórych sekwencji rzeczywistych. W roz- 
dziale tym omówiono również sumacyjną metodę detekcji masek obiektów ruchomych, 
będącą oryginalnym opracowaniem autora. W rozdziale dziesiątym wprowadzono nowy 
model statystyczny z trójwymiarowym wektorem obserwacji, korzystający z dwuwymia- 
rowego rozkładu normalnego jako sposobu uwzględnienia wpływu obserwacji na rozkład 
ukrytego pola losowego. Zaproponowany model charakteryzuje się właściwością uzupełnia- 
nia braków informacji wykorzystywanej maski zmian czasowych. W rozdziale jedenastym 
przeprowadzono podsumowanie całej rozprawy oraz zasugerowano kierunki dalszych ba- 
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dań. W Dodatku A zamieszczono wyniki badań modelu Lalande'a-Bouthemy'iego oraz 
nowego modelu z dwuwymiarowym wektorem obserwacji analogiczne do wyników z roz- 
działów siódmego i ósmego, z tym, że jako obserwację przyjęto moduł różnicy jasności 
przyporządkowanych pojedynczemu pikslowi w kolejnych obrazach, a nie różnicę tych ja- 
sności. W Dodatku B opisano pakiet programów komputerowych opracowanych w celu 
przeprowadzenia badań dla potrzeb niniejszej rozprawy. 


Rozdział 2 


W prowadzenie 


Celem niniejszego rozdziału jest przedstawienie aktualnego stanu wiedzy w dwóch dzie- 
dzinach, których dotyczą zasadnicze części rozprawy, tzn. komputerowej analizie ruchu, 
oraz modelowaniu obrazów za pomocą pól Markowa, wybranych jako przykład pól loso- 
wych. Teoria pól Markowa jest częścią statystyki matematycznej. W zaprezentowanym 
przeglądzie zagadnień dotyczących tych pól zwrócono uwagę szczególnie na ich wyko- 
rzystanie w komputerowej analizie obrazów. Doboru przedstawionych zagadnień analizy 
ruchu dokonano na podstawie przeprowadzonych studiów literaturowych. 
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2.1 Komputerowa analiza ruchu 


2.1.1 Przedstawienie problemu 


W obecnym czasie jedną z możliwości prowadzenia analizy ruchu jest wykorzystanie do 
tego celu komputerowego systemu wizyjnego. System taki składa się zazwyczaj z części 
optycznej, której zadaniem jest dostarczanie informacji wizyjnej o otaczającej rzeczywi- 
stości, oraz części komputerowej przetwarzającej zebraną przez system optyczny informa- 
cję. Obydwie części systemu imitują w pewnym sensie układ oko-mózg człowieka. Podob- 
nie jak w przypadku istoty ludzkiej, przetwarzanie przez system komputerowy informacji 
dostarczonej przez „imitację oka” może służyć bądź tylko rejestrowaniu obserwowanej 
rzeczywistości, bądź wypracowaniu reakcji na zachodzące wydarzenia. Przykładem może 
być zastosowanie komputerowego systemu wizyjnego do sterowania robota samojezdnego. 
Informacja jaką dostarcza system komputerowy jest wykorzystywana do wypracowania 
sygnałów sterujących umożliwiających odpowiednią nawigację robota w jego otoczeniu. 
W takim przypadku następuje zamknięcie pętli sprzężenia zwrotnego przez komputerowy 
system wizyjny. 

W przypadku analizy ruchu bardzo ważną rolę odgrywa wzajemna relacja pomiędzy 
obserwatorem, czyli kamerą, a analizowanym zjawiskiem, którym najczęściej jest zacho- 
wanie się pewnego obiektu. W zasadzie istnieją trzy możliwości: 


e statyczna kamera, ruchomy obiekt, 
e ruchoma kamera, statyczny obiekt, 
e ruchoma kamera, ruchomy obiekt. 


Najtrudniejszym do analizy wydaje się przypadek trzeci, w którym dużo zależy od przy- 
jętych założeń wstępnych. 
Systemy wizyjne można podzielić na: 


e systemy jednokamerowe, 
e systemy wielokamerowe. 


W zastosowaniach opartych na jednej kamerze system optyczny dostarcza sekwencji 
cyfrowych obrazów z gradacją szarości. Mogą to być np. zdigitalizowane ramki sygnału 
telewizyjnego, które następnie poddawane są analizie za pomocą systemu komputero- 
wego. Wraz ze wzrostem liczby kamer ulega zwiększeniu ilość informacji o otoczeniu, 
dzięki czemu możliwe jest precyzyjniejsze wypracowanie sygnałów sterujących. Niestety, 
dla wielu systemów komputerowych zastosowanie więcej niż jednej kamery prowadzi do 
takiego wzrostu ilości informacji wejściowej. że niemożliwe staje się jej przetworzenie w 
zadowalającym czasie. W konsekwencji systemy wielokamerowe są znacznie droższe od 
systemów jednokamerowych, ze względu zarówno na cenę sprzętu optycznego jak i ko- 
nieczności korzystania z systemów komputerowych o odpowiednio większej mocy oblicze- 
niowej. 

Zadania stawiane przed systemami komputerowymi mogą mieć bardzo różny charak- 
ter. W najprostszym przypadku może być to tylko udzielenie odpowiedzi na pytanie, czy 
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w obserwowanej scenie zaszły zmiany spowodowane np. ruchem jakiegoś obiektu. Nie- 
kiedy samo stwierdzenie faktu zajścia zmian jest niewystarczające. Koniecznym staje się 
zlokalizowanie ruchomego obiektu. 

Bardziej złożonymi zadaniami stawianymi przed systemami komputerowymi mogą 
być: interpretacja ruchu, czyli odróżnienie obszarów o różnym typu ruchu, jak translacja 
lub obrót, rozpoznawanie obiektów ruchomych, estymacja ruchu. tzn. znajdowanie war- 
tości i kierunku prędkości, śledzenie poruszającego się obiektu, czyli określenie kolejnych 
jego położeń. 

Dla potrzeb niniejszej rozprawy metody komputerowej analizy ruchu zostaną podzie- 
lone na algorytmy niskiego i wysokiego poziomu. Do grupy metod niskiego poziomu zali- 
czane są te. które pozwalają na rozwiązanie zadań podstawowych, tzn. takie, dla których 
danymi wejściowymi jest analizowana sekwencja z gradacją szarości, a znalezione rezul- 
taty są podstawą do wykorzystania w innych algorytmach. Na zasadzie kontrastu algoryt- 
mami wysokiego poziomu określa się te, które korzystają z wyników znalezionych przez 
algorytmy niskiego poziomu. W komputerowej analizie ruchu do metod niskiego poziomu 
można zaliczyć algorytmy: 


1. detekcji zmian w obrazie [AKM93, IT93, NP91, NP90, SJ89, HNR84, Nag82), 
2. oparte na cechach obrazów, tzn. 


(a) detekcji narożników ruchomych [Kur92, RC92, SJ84, KR82}, 
(b) detekcji krawędzi ruchomych [Bou89, HJ83], 


3. znajdowania potoku optycznego, tzn. metody oparte na czasowo-przestrzennym gra- 
diencie [KD90, Hor89, VP92], 


4. transformacji obrazów [Mah91a, Mah91b, Jai82]. 
Korzystając z wymienionych technik opracowano metody wysokiego poziomu, jak np. 
1 detekcję ruchu opartą na: 


e ruchomych krawędziach [DA92], 
« maskach zmian w obrazie [BL90, LB90], 
e potoku optycznym [Bla90. MB87]. 


2. śledzenie ruchu korzystające z 
e ruchomych narożników |SS90. SJ87], 
e ruchomych krawędzi [DA92), 
e potoku optycznego [AT90]. 
" 3. estymację ruchu wykorzystującą: 
e potok optyczny [HB90a. HB90b], 


e metody transformacji obrazów [Mah91la, Mah91b], 
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e ruchome narożniki [AN88, Nag83, DN82], 
e ruchome krawędzie [WHA92), 


4. interpretację ruchu opartą na: 
e potoku optycznym [FB90a, FB90b], 


Nie wszystkie znane w literaturze metody można w sposób oczywisty zaliczyć do któ- 
rejś z wymienionych grup. Przykładem może być rozwiązanie zaproponowane w [HB90a], 
gdzie przedstawiono kompleksowe podejście do analizy ruchu. W [MC93] przedstawiono 
metodę, którą bezdyskusyjnie należy zaliczyć do grupy algorytmów wysokiego poziomu, 
gdyż dotyczy rozpoznawania poruszających się obiektów, a nie korzysta ona z żadnej z 
wymienionych metod niskiego poziomu. Autorzy zastosowali segmentację opartą jedynie 
na funkcji jasności, a wykorzystującą własności obrazu cienia poruszającego się obiektu. 

W rozdziałach 2.1.2 oraz 2.1.3 przedstawiono przegląd metod komputerowej analizy 
ruchu. 


2.1.2 Metody niskiego poziomu 


DETEKCJA ZMIAN W OBRAZIE 


Detekcja zmian w obrazie jest jednym z najbardziej podstawowych zadań komputerowej 
analizy ruchu. W najprostszych zastosowaniach może ona jedynie polegać na udzieleniu 
odpowiedzi na pytanie, czy w obserwowanej scenie zaszły istotne zmiany, np. spowodowane 
ruchem jakiegoś dużego obiektu, a nie tylko szumem elektronicznym [IT93]. W większo- 
ści zastosowań wykrywanie zmian dla sekwencji obrazów z gradacją szarości rozumiane 
jest jednak inaczej. Każde dwa sąsiednie obrazy porównywane są ze sobą. Wynikiem po- 
równania jest, poza stwierdzeniem faktu zajścia zmian. również ich lokalizacja. W języku 
komputerowej analizy obrazów oznacza to, że: 


1. detekcję zmian przeprowadza się dla każdych dwóch kolejnych obrazów sekwencji 
wejściowej, 


2. w wyniku otrzymywany jest obraz binarny, tzw. maska zmian. w którym wyróżnione 
są piksle należące do obszarów. w których zaszły zmiany. 


Z przedstawionego opisu wynika, że jeżeli analizowana sekwencja składa się z N obra- 
zów, to efektem poszukiwania zmian będzie sekwencja N — 1 obrazów binarnych. Poza 
pierwszym i ostatnim obrazem analizowanej sekwencji każdy pozostały bierze udział w 
tworzeniu dwóch masek zmian. 

Poniżej przedstawiono skrócony przegląd metod detekcji zmian znanych z literatury. 


Detekcja zmian na podstawie analizy histogramów sekwencji obrazów. Za- 
proponowane w [IT93] rozwiązanie ma jedynie na celu stwierdzenie faktu zajścia zmian. 
Uproszczony charakter metody powoduje. że może ona znaleźć zastosowanie głównie w 
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przypadkach typowych dla obserwacji scen statycznych, takich jak np. ochrona skarbca 
bankowego. 

Dla każdego obrazu sekwencji najpierw znajdowany jest histogram, a następnie ob- 
liczane są wartości trzech statystyk, tzn. dystrybuanty empirycznej, średniej próby oraz 
wariancji. W następnym kroku porównywane są ze sobą odpowiednie statystyki dla dwóch 
sąsiednich obrazów sekwencji. Porównywanie dokonuje się przy użyciu trzech testów sta- 
tystycznych: Kołmogorowa, x? Pearsona oraz testu średnich. Jeżeli przy założonych wcze- 
śniej poziomach istotności w przypadku każdego z testów stwierdzono zajście zmian, to 
taką samą odpowiedź otrzymuje się dla całej metody. 


Różnica jasności piksla w kolejnych chwilach czasowych. Z matematycznego 
punktu widzenia podstawą stwierdzenia lokalnej zmiany funkcji jasności w pojedynczym 
pikslu jest wartość pochodnej cząstkowej funkcji jasności względem czasu mh przy 
czym f(x,y.t) oznacza jasność przyporządkowaną pikslowi o współrzędnych (r.y) w 
chwili czasu t [LB90]. Ponieważ w komputerowej analizie obrazów mamy do czynie- 
nia z przypadkiem dyskretnym, zarówno jeśli chodzi o dziedzinę jak i zbiór wartości 
funkcji, więc obliczaniu pochodnej czasowej odpowiada zwykłe odejmowanie np. postaci 
f(z,y,k) — f(z,y,k — 1), przy czym k - indeks przyporządkowany kolejnym obrazom 
sekwencji. Oznacza to, że odejmowanie jasności piksla z kolejnych chwil czasowych odpo- 
wiada różniczkowaniu numerycznemu. Skądinąd wiadomo, że wszystkie metody różniczko- 
wania numerycznego są bardzo wrażliwe na szum. Stąd wynika ograniczona stosowalność 
różnicy jasności do detekcji zmian. Niewątpliwą jednak zaletą powyższej metody jest jej 
prostota, a tym samym krótki czas obliczeń. 


Testy statystyczne oparte na lokalnym modelowaniu funkcji jasności. W arty- 
kule [HNR84] przedstawiono grupę metod detekcji zmian pozbawionych w pewnym sensie 
wad metody opartej na różnicy jasności. Ze względu na obecność szumu w obrazach przy- 
jęto. że: 


e w celu wykrycia zmian korzysta się nie tvlko z wartości jasności w pojedvnczym 
pikslu. ale i w jego otoczeniu. 


e szum uwzględniony jest juz na etapie modelowania. 


Po pierwsze założono, że w niewielkim otoczeniu piksla funkcję jasności można aprok- 
symować pewnym wielomianem. W zależności od rzędu wielomianu stworzono trzy me- 
tody, a mianowicie o stałym, liniowym i kwadratowym modelu funkcji jasności. Po drugie 
przyjęto, że niezgodność modelu z rzeczywistymi wartościami funkcji jasności opisana jest 
gaussowskim szumem o zerowej wartości średniej i stałej wariancji. Modelowanie takie 
przeprowadzono dla odpowiednich okien dwóch kolejnych obrazów sekwencji. Opierając 
się na przyjętych założeniach opracowano trzy testy statystyczne, po jednym dla każdego 
modelu funkcji jasności. Jako podstawę konstrukcji testów przyjęto stosunek wiarogod- 
ności [Zie90]. Przedstawione testy pozwalają na udzielenie odpowiedzi, czy niezgodność 
jasności w kolejnych chwilach czasowych jest spowodowana tylko szumem, czy zmianami 
treści przedstawianej sceny. 
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Test statystyczny oparty na transformacie Walsha funkcji jasności. Propozy- 
cję tej metody przedstawiono w [NP91, NP90]. Podobnie jak w metodzie poprzedniej 
podstawą jest modelowanie statystyczne pewnego otoczenia piksla oraz test oparty na 
stosunku wiarogodności dwóch hipotez. Podstawowymi różnicami są przyjęty stały roz- 
miar otoczenia piksla, tzn. 4 x 4, oraz inny model funkcji jasności. Funkcję jasności w 
otoczeniu piksla rozłożono na szesnaście funkcji Walsha. A priori założono, że dziewięć 
pierwszych funkcji Walsha odpowiada treści obrazu, a siedem pozostałych związanych 
jest z szumem. Na tej podstawie skonstruowano test statystyczny porównując ze sobą 
odpowiednie okna dwóch kolejnych obrazów sekwencji. 


Test oparty na modelu cieni. W [SJ89] przedstawiono rozważania, z których wynika, 
że wszystkie omówione dotychczas metody są bardzo wrażliwe na zmiany oświetlenia. Na- 
wet niewielka zmiana warunków oświetlenia statycznej sceny powoduje wykrycie zmian, 
które utrudniają analizę ruchu. W pracy [SJ89] zaprezentowano metodę o zmniejszonej 
wrażliwości na efekty świetlne. Oparta jest ona na jednym z modeli zacienienia, używa- 
nym w grafice komputerowej. Na podstawie dłuższych rozważań stwierdzono, że podstawą 
konstrukcji testu musi być stosunek jasności przyporządkowanych temu samemu pikslowi 
w dwóch kolejnych obrazach sekwencji. Przyjmując pewne ustalone otoczenie piksla naj- 
pierw oblicza się stosunki jasności w dwóch kolejnych obrazach sekwencji Ls" dla 
wszystkich piksli należących do tego otoczenia włącznie z pikslem aktualnym. Następnie 
liczy się średnią ze znalezionych wcześniej wartości, a potem wariancję. Obliczona wa- 
riancja jest miarą zmian. Przy odpowiednio dużej wariancji przyjmuje się, że została ona 
spowodowana zmianami treści sceny. 


KRAWĘDZIE RUCHOME 


Krawędzie są jedną z najczęściej poszukiwanych cech obrazów komputerowych [AS92, 
LHS87, BHM86, Can86, KL86, NB86]. Spróbujmy zdefiniować pojęcie krawędzi. 


Dany piksel jest zaliczany do krawędzi, jeśli zmiany funkcji jasności w tym 
ptkslu są odpowiednio duze. 


Przedstawiona definicja ma oczywiście charakter nieformalny. Kryterium zaliczania da- 
nego piksla do krawędzi jest niejednoznaczne. W zależności od treści obrazu oraz dynamiki 
funkcji jasności rozumianej jako różnica pomiędzy jasnościami minimalną i maksymalną. 
piksel może zostać zaliczony do krawędzi lub nie. Najczęściej detekcja krawędzi doko- 
nywana jest za pomocą jakiegoś lokalnego operatora działającego na funkcję jasności. 
Wartość takiego operatora jest porównywana z wcześniej określonym progiem. Gdy prze- 
kroczona zostanie wartość takiego progu, to dany piksel jest zaliczany do krawędzi. 

Poza metodami znajdowania krawędzi możliwe jest również poprawianie wcześniej zna- 
lezionych obrazów krawędziowych, np. jak to zostało przedstawione przez autora w [Kur93, 
Kur92]. 

W detekcji krawędzi ruchomych, poza samą detekcją krawędzi, konieczne jest odsepa- 
rowanie krawędzi należących do statycznego tła od tych, które należą do poruszającego 
się obiektu. Jak w przypadku większości metod wizji komputerowej, w literaturze znane 
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są różne algorytmy znajdowania ruchomych krawędzi [DA92, Bou89, HJ83]. W niniejszej 
pracy zostaną omówione dwie metody. Pierwsza została zaprezentowana w [HJ83] i oparta 
Jest ona na maskach zmian w obrazie oraz dowolnym z operatorów umożliwiających znaj- 
dowanie krawędzi statycznych. Drugą z metod, korzystającą ze statystycznego czasowo- 
-przestrzennego modelu sekwencji obrazów z gradacją szarości, przedstawiono w [Bou89]. 

Najprostszy sposób znajdowania krawędzi ruchomych [HJ83] związany jest z przepro- 
wadzeniem dwóch lokalnych operacji na funkcji jasności: 


* znajdowanie krawędzi dla danego obrazu sekwencji, 


e wykrywanie zmian w przedstawianej scenie zachodzących pomiędzy aktualnym ob- 
razem i obrazami sąsiednimi. 


Jeżeli dany piksel należy do krawędzi i jednocześnie należy od obszaru, w którym za- 
szły zmiany, to jest on pikslem ruchomej krawędzi. Jeżeli obydwie wymienione powyżej 
operacje dokonywane są za pomocą operatorów działających lokalnie na funkcję jasności 
lub różnicę jasności dwóch obrazów, to możliwe jest połączenie ich w jeden operator za 
pomocą zwykłego iloczynu [HJ83]. Przy takim rozwiązaniu w celu wykrycia krawędzi ru- 
chomych należy określić tylko jedną wartość progową. Poza tym wykorzystanie iloczynu 
dwóch operatorów umożliwia znajdowanie zarówno tych ruchomych krawędzi, dla których 
wartość miary określającej ich krawędziowość jest mała ale krawędzie te znajdują się w 
obszarach silnych zmian, jak również „silnych” krawędzi leżących w obszarach niewielkich 
lokalnych zmian funkcji jasności. Ze względu na swoją prostotę rozwiązanie proponowane 
w [HJ83] ma również pewną wadę. Jako kryterium rozstrzygające o zachodzących zmia- 
nach używana jest różnica jasności, która, jak wiadomo, nie uwzględnia wpływu otoczenia 
i z tego powodu jest bardzo wrażliwa na szum obecny w obrazach komputerowych. 

Pewną modyfikacją powyższej metody jest rozwiązanie zaproponowane w [DA92], na- 
zwane przez autorów operatorem MOD. Operator ten jest iloczynem dwóch operatorów 
Sobela, z których jeden zastosowany jest do aktualnego obrazu sekwencji, a drugi do 
różnicy tego obrazu i obrazu sąsiadującego. 

Metoda zaprezentowana w [Bou89)] jest znacznie bardziej skomplikowana. Wykorzy- 
stuje ona test hipotezy statystycznej opartej na stosunku wiarogodności. Niech 7 oznacza 
pewien podzbiór czasoprzestrzeni odpowiadającej sekwencji obrazów z gradacją szarości. 
Sformułujmy hipotezy: 


e Ho: ruchoma krawędź w m nie występuje. Wtedy przyjmuje się, że jasność wszystkich 
piksli z 7 ma stałą wartość co, do której dodany jest gaussowski szum N(0,0?) o 
zerowej wartości średniej i wariancji o“ 


e H,: ruchoma krawędź w m występuje. W takim przypadku przyjmuje się, że pewna 
powierzchnia S(@), zdefiniowana przez wektor parametrów 6, dzieli m na m; oraz 73, 
jasności piksli należących do r, mają wartości cy, a piksli z mą jasności cą (c) # C2). 
Podobnie jak dla hipotezy poprzedniej zakłada się, że do jasności dodany jest szum 
o rozkładzie N(0,o”). 


Przyjęte założenia powodują, że w każdym pikslu należącym do m jasność jest opisywana 
rozkładem normalnym o wartości średniej co, c; lub cą i wariancji a?. Ponadto uczyniono 
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założenie, że rozkłady prawdopodobieństwa w poszczególnych pikslach są od siebie nie- 
zależne. Dzięki takiemu założeniu funkcja wiarogodności jest iloczynem gęstości prawdo- 
podobieństwa z poszczególnych piksli. Kolejnym krokiem metody jest zastosowanie stan- 
dardowego testu statystycznego opartego na stosunku wiarogodności, por. [Zie90]. Oczy- 
wiście, konstrukcja takiego testu zależy między innymi od przyjętego modelu powierzchni 
generowanej przez poruszającą się krawędź w czasoprzestrzeni. W [Bou89] przedstawiono 
odpowiednie wzory, przy założeniu, że powierzchnia S(¢) jest płaszczyzną. 


NAROŻNIKI RUCHOME 
Pojęcie narożnika można zdefiniować następująco: 


Narożnikiem jest ten piksel obrazu komputerowego, w którym krawędź wystar- 
czająco zmienia swój kierunek. ‘ 


Definicja powyższa ma charakter nieformalny, gdyż jest oparta raczej na intuicyjnej in- 
terpretacji sygnałów wizyjnych niż na zależnościach matematycznych. Samo pojęcie kra- 
wędzi, wykorzystywane w powyższej definicji, ma również podobną naturę. W dodatku 
sformułowanie mówiące o „wystarczającej zmianie kierunku” oznacza jedynie, że cechę 
„narożnikowatości”, tzn. że dany piksel jest narożnikiem, można właściwie przypisywać 
prawie dowolnie, o ile piksel ten należy do krawędzi. Dla przykładu rozważmy obraz 
ciemnego prostokąta na jasnym tle. Narożnikiem będzie ten piksel, w którym krawędź 
zmienia swój kierunek o +90", czyli zgodnie z arytmetyką kierunków wektorów na płasz- 
czyźnie Z? przedstawioną przez autora w [Kur92, Kur93], kierunek krawędzi zmienia się 
o (+2)mod8. Gdyby na obrazie komputerowym przedstawiony był sześciokąt, wówczas 
cechę narożnikowatości należałoby przypisać już przy zmianie kierunku biegu krawędzi 
o (+1)mod8. Jeśli jednak mielibyśmy do czynienia z komputerowym obrazem koła, to 
żadna zmiana kierunku krawędzi nie powinna implikować tego, że piksel jest narożnikiem. 
Przedstawiony przykład świadczy o niejednoznaczności wyników otrzymywanych za po- 
mocą różnych metod detekcji narożników, gdyż oczekiwany wynik zależy prawie zawsze 
od treści przedstawianej sceny. W przypadku scen rzeczywistych sytuacja bywa o wiele 
bardziej skomplikowana niż ta naszkicowana powyżej. Z tego powodu opieranie się jedynie 
na kryterium lokalnej zmiany kierunku jest najczęściej niewystarczające. 

Metody detekcji narożników mają zazwyczaj postać operatorów progowych [Kur92]. 
W zależności od konkretnych zastosowań konieczne są korekty progu dokonywane przez 
użytkownika, aby efekt otrzymywany chociaż w przybliżeniu przypominał ten oczekiwany 
intuicyjnie. 

W literaturze znanych jest kilka metod wykrywania narożników (SJ84, KR82], ta- 
kich jak metody Zuniga-Haralicka, Kitchen-Rosenfelda czy Dreschler-Nagela. W [SJ84] 
przedstawiono analizę porównawczą znanych rozwiązań, w efekcie której stwierdzono, że 
najlepsze własności ma metoda Zuniga-Haralicka (ZH). Z tego powodu na jej przykładzie 
zostanie omówione zagadnienie wykrywania narożników w obrazach. 

Metoda ZH pozwala na stwierdzenie w trzech krokach, czy dany piksel obrazu kompu- 
terowego jest narożnikiem. Oparta jest na modelu ściankowym [HW81]. W celu uwzględ- 
nienia sąsiedztwa, funkcję jasności w pewnym otoczeniu aktualnego piksla aproksymuje 
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się wielomianem trzeciego stopnia dwóch zmiennych o postaci: 
g(z,y) = ky + kat + kzy + kar? + kszy + key? + kra” + kax’y + kory? + kyoy®, (2.1) 


przy czym: (x,y) — współrzędne piksla, kı ... kio — współczynniki wielomianu aproksymu- 
jącego. Kroki metody ZH dla jednego piksla wyglądają następująco: 


1. Aproksymacja. 
Znajdź wartości współczynników k;...k;g, np. za pomocą metody najmniejszych 
kwadratów. 


2. Sprawdzanie czy aktualny piksel należy do krawędzi. 
Oblicz wartości pochodnych cząstkowych g, oraz gy tworzących gradient (gz, gy) 
aproksymacji g(x,y). Oblicz wartości pierwszej i drugiej pochodnej aproksymacji 
g(r,y) w kierunku gradientu. Jeśli wartość pierwszej pochodnej jest większa od 
wcześniej ustalonego progu, a wartość drugiej pochodnej równa się w przybliżeniu 
zero, to przejdź do następnego kroku, w przeciwnym przypadku zacznij sprawdzać 
następny piksel. 


3. Sprawdzanie czy aktualny piksel jest naroznikiem. 
Oblicz wartość pochodnej kąta gradientu © w kierunku ortogonalnym do gradientu, 
tzn. znajdź wartość wyrażenia: 


—2(kżkę — kzksks + kgką) (2.2) 
(+ YF j 
Jeśli obliczona wartość jest większa od wcześniej założonego progu, to przyjmij, że 
dany piksel jest naroznikiem. 


Oryginalna metoda ZH charakteryzuje się pewną wadą. Ze względu na dużą liczbę obli- 
czeń zmiennoprzecinkowych dla każdego piksla, jest ona czasochłonna. W [Kur92] autor 
przedstawił metodę poprawioną, dzięki której uzyskano dwudziestokrotne skrócenie czasu 
potrzebnego na przeprowadzenie obliczeń dla wszystkich piksli należących do obrazu. 
Główna idea zaproponowanej w [Kur92| modyfikacji polega na wydzieleniu etapu detekcji 
krawędzi i zastąpieniu go metodą szybszą. Aby jednak krawędzie znalezione dzięki zasto- 
sowaniu takiej metody, jak np. operator Sobela, były porównywalnej lub nawet lepszej 
Jakości niż te znalezione przy użyciu modelu ściankowego, można jeszcze przed wykrywa- 
niem narożników zastosować algorytmy poprawy obrazów krawędziowych przedstawione 
w [Kur92, Kur93]. 

Wykrycie narożników w obrazie jest tylko pierwszym etapem w analizie ruchu. Ze 
zbioru wszystkich narożników trzeba pozostawić tylko te. które należą do poruszających 
się obiektów. Dla kazdego narożnika jest sprawdzane. czy leży on w obszarze zmian. Do 
tego celu wykorzystywana jest operacja iloczynu logicznego. Jeśli dany piksel jest naroż- 
nikiem oraz jeśli należy on do obszaru zmian, to jest on narożnikiem ruchomym. W [SJ84] 
zaproponowano zamiast koniunkcji logicznej, wykorzystanie zwykłego iłoczynu wyraże- 
nia (2.2) i różnicy funkcji jasności w aktualnym pikslu dla sąsiednich obrazów. Takie sfor- 
mułowanie problemu detekcji narożników ruchomych powoduje, że możliwe jest wykrycie 
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zarówno „słabych” narożników, które leżą w obszarze „silnych” zmian, jak i „silnych” 
narożników, gdy obserwowane zmiany są niewielkie. 

Zagadnienie detekcji zmian zachodzących pomiędzy kolejnymi obrazami zostało już 
omówione poprzednio w tym rozdziale. 


POTOK OPTYCZNY 


W [Hor89] zamieszczono nieformalną definicję potoku optycznego. Spróbujmy ją jednak 
przedstawić w języku matematyki. 


Potokiem optycznym nazywamy pole wektorowe przyporządkowujące kazdemu 
ptksloun obrazu nalezącego do sekwencji obrazów z gradacją szarości wektor 
odpowiadający zmianom funkcji jasności w tym pikslu zachodzącym pomiędzy 
sąsiednimi obrazami analizowanej sekwencji. 


Do analizy ruchu potrzebne jest jednak pole prędkości. Definicja tego pola jest prawie taka 
sama jak definicja potoku optycznego z tą różnicą, że każdemu pikslowi przyporządkowuje 
się wektor prędkości. Gdy system wizyjny składa się z jednej kamery zarówno wektory 
potoku optycznego jak i wektory pola prędkości mają tylko dwie współrzędne, tzn. po- 
tok optyczny i pole prędkości przedstawiają zachodzące zmiany w rzucie na płaszczyznę 
obrazu. W ogólnym przypadku potok optyczny oraz pole prędkości różnią się między 
sobą [Hor89, VP92]. Typowym przykładem może być sekwencja obrazów przedstawia- 
jąca statyczny obiekt ale w zmiennych warunkach oświetlenia. W takim przypadku pole 
prędkości jest polem zerowym, czego nie można powiedzieć o potoku optycznym. W kom- 
puterowej analizie ruch opartej na systemach wizyjnych możliwe jest jedynie znajdowanie 
potoku optycznego. Z tego powodu prawie zawsze zakłada się, że są spełnione odpowiednie 
warunki, jak np. stałość oświetlenia tak, aby potok optyczny był dobrym przybliżeniem 
pola prędkości. 

Przejdźmy teraz do zależności matematycznych opisujących potok optyczny. Niech 
f(x,y, t) oznacza wartość funkcji jasności piksla o współrzędnych (x,y) w obrazie z chwili 
t. Dokonując rozkładu f(z, y,t) w szereg Taylora otrzymujemy: 


f(r+dr,y+dy,t+dt) = f(z,y,t)+ fe(z, y, t) dr+ fy(z,y,t) dy+ flz,y,t) dt +0? (2.3) 


przy czym: f, oznacza EL, z=r.y,t, O? — reszta wyrazów rozwinięcia w szereg Taylora. 
Oznaczając przez w,(u,,v,) wektor prędkości, przy czym u, = “(s), vs = $(5), s = 
(r,y,t) oraz zakładając, że: 


« wyrazy wyższego rzędu rozwinięcia (2.3) są pomijalne (O? — 0), tzn. przyjmując, 
że czasowo-przestrzenna funkcja jasności (ciąg funkcji jasności kolejnych obrazów 
sekwencji) może być lokalnie aproksymowana liniową funkcją czasu i przestrzeni, 
oraz 


e jasność odpowiadająca dowolnemu punktowi z przestrzeni nie zależy od czasu (sta- 
łość warunków oświetlenia), 
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równanie (2.3) sprowadzamy do postaci: 


fz(s): u, + f,(s)- vs = = fils) (2.4) 
Równanie (2.4) można również zapisać w postaci: 
v/(s)-w, + fis) = 0, (2.5) 


przy czym: Vf = (fz, fy)? oznacza gradient przestrzenny. Równanie (2.5) znane jest pod 
nazwą równania potoku optycznego. Dalsze przekształcanie tego równania prowadzi do po- 
staci, z której wynika bardzo interesujący wniosek. Okazuje się, że na podstawie lokalnych 
obliczeń możliwe jest określenie wartości tylko jednej składowej wektora prędkości w;, a 
mianowicie składowej równoległej do gradientu przestrzennego [HB90a, Hor89]. Obserwa- 
cja powyższa znana jest w literaturze jako problem apertury {Hor89]. W celu znalezienia 
obu współrzędnych wektora prędkości dodatkowo zakłada się, że punkty położone blisko 
siebie poruszają się ze zbliżonymi prędkościami. W praktyce metody oparte na optymali- 
zacji lokalnej zakładają stałą wartość prędkości w sąsiedztwie [HB90a], w przeciwieństwie 
do metod korzystających z optymalizacji globalnej, które oparte są na założeniu gładkich 
zmian prędkości [HB90a, HB90b]. 

Założenia będące podstawą do wyprowadzenia równania (2.5) niestety prowadzą do 
pewnych niekorzystnych konsekwencji. Po pierwsze, stałość jasności odpowiadającej jakie- 
muś punktowi z przestrzeni w całej sekwencji obrazów w rzeczywistości jest bardzo trudna 
do osiągnięcia. Po drugie, założenie jedynie liniowej postaci rozwinięcia w szereg Taylora 
traci sens w miejscach gwałtownych zmian funkcji jasności, co w konsekwencji powoduje, 
że np. w pobliżu krawędzi znajdowanie potoku jedynie na podstawie równania (2.5) nie 
ma żadnego sensu [Hor89]. 

Z „postaci równania (2.5) można również zauważyć, że gdy tylko ta część funkcji ja- 
sności, która reprezentuje poruszający się obiekt, ma stałą wartość w pewnym obszarze 
(Vf (s) = 0), to znalezienie współrzędnych wektora potoku optycznego jest niemożliwe, 
gdyż w takim przypadku może być to dowolny wektor. 

Zadanie poszukiwania potoku optycznego na pierwszy rzut oka nie wydaje się być bar- 
dzo skomplikowane. Badania przeprowadzone przez niektórych badaczy jednak tego nie 
potwierdzają, por. [Bla90]. Znane algorytmy znajdowania pola optycznego są o wiele bar- 
dziej skomplikowane niż tylko zwyczajne zastosowanie równania (2.5), por. [Jar94]. Innym 
przykładem może być podejście do problemu przedstawione w pracach [HB90a, HB90b]. 
Zaprezentowana tam metodę nazwano wielomodalną estymacją nieciągłego potoku optycz- 
nego. W postaci pewnego pola Markowa opisano zależności pomiędzy potokiem optycznym 
otrzymanym dzięki zastosowaniu równania (2.5) i ruchomymi krawędziami znalezionymi 
za pomocą metody zaprezentowanej w [Bou89], a następnie znajdowano potok optyczny. 
ua podstawie obydwu informacji cząstkowych. 


ANALIZA RUCHU OPARTA NA TECHNIKACH TRANSFORMACJI OB- 
RAZÓW 
Techniki transformacji obrazów wykorzystywane są w metodach wizji komputerowej już od 


wielu lat. Do uajpopularniejszych należy transformata Fouriera (FT) (S191, Pav87), do ob- 
liczania której znane są również szybkie wersje algorytmów, tzw. FFT. Oprócz FT istnieje 
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wiele innych transformat, por. [Ś191]. Niektóre z metod transformacji sygnałów dwuwy- 
miarowych znalazły również zastosowanie w komputerowej analizie ruchu, między innymi 
transformata Hartley'a (HT) (Mah91a, Mah91b] oraz transformacja EMP [Jai82], czyli 
transformacja funkcji jasności do współrzędnych biegunowych względem ogniska ekspansji. 
Poniżej w skrócie omówiono przykłady metod wykorzystujących wspomniane techniki. 


Obliczanie wartości prędkości dużych obiektów przy użyciu transformaty Har- 
tley'a. Transformata Hartley'a dokonuje przekształcenia dziedziny sekwencji obrazów 
z gradacją szarości w dziedzinę częstotliwości przestrzenno-czasowych [MAG88, Mah91a, 
Mah91b]. W pracy [Mah91b] wykazano. że maksimum transformaty Hartley'a sekwencji 
obrazów z gradacją szarości związane jest z prędkością obiektu ruchomego. Korzystając 
jedynie z transformaty Hartley'a niemożliwym jest jednak znalezienie kierunku wektora 
prędkości. Z tego powodu w [Mah91b] zaproponowano metodę estymacji prędkości dużych 
obiektów opartą jednocześnie na transformatach Hartley'a i Fouriera. Zaproponowany al- 
gorytm wygląda następująco: 


1. Znajdź wartość transformaty Hartley'a dla analizowanej sekwencji; 
H{k, f] =? 


2. Wybierz przestrzenną częstotliwość k,. 


3. Znajdź maksimum H|k,, f| oraz odpowiadającą jemu częstotliwość prze- 
strzenną fp- Prędkość poruszającego się obiektu wynosi Vp = f,/k,. 


4. Znajdź widmo Fouriera z H|k, f] dla częstotliwości przestrzennej k,, tzn. 
oblicz F|k,, f]. 


5. Znajdź maksimum F|k,, f] oraz odpowiadającą jej częstotliwość fp. Pręd- 
kość poruszającego się obiektu wynosi Vj = f,/k,, ze znakiem przeciwnym 
niż fp. 


6. Porównaj V, oraz Vj. Jeśli są różne to zwiększ k, i skocz do 3, w prze- 
ciwnym przypadku kontec. 


W [Mah91b] napisano, że przedstawiona metoda jest szybsza niż inne metody analizy 
ruchu. Niestety nie zamieszczono przykładów zastosowań dla sekwencji rzeczywistych, a 
jedynie przedstawiono wyniki dla sztucznie wygenerowanej sekwencji sygnałów jednowy- 
miarowych 


Transformacja EMP. Transformacja EMP sekwencji obrazów z gradacją szarości za- 
prezentowana w |Jai82] jest transformacją obrazów z prostokątnego układu kartezjań- 
skiego OXY do układu współrzędnych biegunowych, przy czym transformacji nie doko- 
nuje się względem środka układu OXY a względem punktu zwanego ogniskiem ekspansji 
(ang. Focus of Expansion). 


Ogniskiem ekspansji (FOE) nazywa się punkt wspólny kierunku ruchu obser- 
watora określonego w przestrzeni R? z płaszczyzną rzutu (obrazu). 
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Transformacja EMP oparta jest na następującym równaniu: 


ex(r,6) = falz, y) (2.6) 
przy czym: f4(z,y) — jasność przyporządkowana pikslowi (x,y) w k-tym obrazie sekwencji, 
ex(r,8) — jasność k-tego obrazu po transformacji w pikslu o współrzędnych biegunowych 
(r, 8). 

Najpierw należy znaleźć wartości r oraz @ dla każdego piksla (x,y) analizowanej se- 
kwencji. Następnie należy przeanalizować zmiany r oraz 6 w pikslu (x, y) w całej sekwencji. 
Jak zostało wykazane w [Jai82], jeżeli kamera porusza się ruchem jednostajnym, to 6 w 
pikslu (z, y) należącym do stacjonarnego tła ma stałą wartość w całej sekwencji. Każda 
zmiana kąta 8 w pikslu (z,y) oznacza, że piksel ten należy do obiektu ruchomego. Na tej 
podstawie możliwe jest rozróżnianie piksli, w których zmiany jasności spowodowane są ru- 
chem obiektów a nie kamery. Dzięki takiej własności metoda wydaje się być niezastąpioną 
w analizie ruchu obiektów za pomocą ruchomej kamery. 

2.1.3 Metody wysokiego poziomu 


Liczba różnych algorytmów wysokiego poziomu zaprezentowanych w literaturze jest bar- 
dzo duża. Większość z nich można zakwalifikować do jednej z następujących grup: 


e detekcja ruchu, 

e śledzenie ruchu, 

ə estymacja ruchu, 

e interpretacja ruchu, 

e rozpoznawanie poruszających się obiektów. 
Ze względu na tematykę niniejszej rozprawy poniżej zostaną omówione dwa zagadnienia, 
a mianowicie detekcja oraz śledzenie ruchu. 
DETEKCJA RUCHU 


Zadanie detekcji ruchu polega na odróżnieniu poruszającego się obiektu od statycznego 
tła. Można tego dokonać 


e korzystając z cech obrazów komputerowych takich jak krawędzie czy narożniki ru- 
chome, bądź 


e opierając się na potoku optycznym, albo 


e jako informację wejściową potraktować wynik detekcji zmian w obrazie 
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Detekcja ruchu wykorzystująca cechy obrazów komputerowych połączona jest najczę- 
ściej z zadaniem estymacji ruchu. Znając np. położenie narożników możliwe jest obliczenie 
prędkości poruszającego się obiektu. O wiele bardziej złożonym jest rozpoznanie porusza- 
jącego się obiektu. Detekcja ruchu korzystająca z cech obrazów umożliwia także w pewnym 
stopniu oddzielenie piksli obiektu od tla, poprzez wykorzystanie segmentacji konturowej. 
Szczególnie do tego celu nadają się ruchome krawędzie. 

Detekcja ruchu poprzez segmentację obszarową może być dokonana zarówno przy uży- 
ciu potoku optycznego jak i masek zmian w obrazie. W literaturze znacznie częściej pre- 
zentowane jeśt podejście opierające się na potoku optycznym. Idea tego podejścia polega 
na wydzieleniu obszarów, w których wielkość wektora zmian potoku optycznego ma do- 
statecznie dużą wartość. W praktyce metody detekcji ruchu nie mogą być oparte jedynie 
na tak prostym założeniu, chociażby dlatego, że wartość potoku optycznego jest nieznana, 
gdy poruszający się obiekt reprezentowany jest za pomocą stałej jasności. 

Konkurencyjnym podejściem do detekcji ruchu jest potraktowanie jako informacji wej- 
ściowej maski zmian w obrazie znalezionej przy użyciu jednej z wielu znanych metod. 
Ponieważ w niniejszej rozprawie wybrano właśnie to podejście do detekcji ruchu, dlatego 
zostanie ono omówione bardziej szczegółowo. 


Detekcja ruchu opierająca się na maskach zmian w obrazie. Na rys. 2.1 sche- 
matycznie przedstawiono detekcję ruchu korzystającą z masek zmian w obrazie. 

Pierwszym etapem rozważanego podejścia do detekcji ruchu jest oczywiście detekcja 
zmian zachodzących pomiędzy kolejnymi obrazami sekwencji. Jak wiadomo pojedynczą 
maskę zmian w obrazie znajduje się poprzez porównanie ze sobą dwóch kolejnych obrazów 
sekwencji. Załóżmy na chwilę, że dostępna jest pełna wiedza o dwóch analizowanych ob 
razach sekwencji, tzn. wiadomo, które piksle należą do statycznego tła, a które do obiektu 
ruchomego. Jeżeli piksel (i, j) we wcześniejszym obrazie należy do tła, a w późniejszym 
obrazie do poruszającego się obiektu, to mówimy, że w pikslu tym mamy do czynienia 
z sytuacją (tło, ruch). W sposób analogiczny można zdefiniować trzy pozostałe sytuacje: 
(tło, tło), (ruch, tło) oraz (ruch, ruch). 

W idealnej masce zmian powinny być odróżnione piksle, w których występują sytuacje 
(ruch, ruch), (ruch, tło), (tło, ruch), od piksli, w których występuje sytuacja (tło, tło). W 
przypadku rzeczywistych sekwencji brak jest zazwyczaj pełnej wiedzy o wartości funkcji 
jasności obiektu. Znaleziona maska zmian ma postać obrazu binarnego. Oznacza to. że 
gdy w jakimś pikslu wykryto zmiany, to nie wiadomo, która z sytuacji (ruch, ruch), (ruch 
tło) czy (tło, ruch) je spowodowała. 

Skądinąd wiadomo, że podczas detekcji zmian w obrazach najtrudniej wykrywalna 
jest sytuacja (ruch. ruch), gdyż najwięcej kłopotów sprawiają te części obiektu, które 
mają stałą, bądź zbliżoną do stałej funkcję jasności. Praktycznie żadnych trudności nie 
sprawiają sytuacje przejściowe, tzn. (tło, ruch) oraz (ruch, tło), chyba że jasność obiektu 
na jego brzegach nie różni się od tła. Jest to jednak przypadek zdegenerowany, gdyż w 
takiej sytuacji stwierdzenie ruchu byłoby niemożliwe nawet dla oka ludzkiego. 

Zadanie detekcji ruch, na podstawie maski zmian w obrazach, dla sekwencji złożonej 
z dwóch obrazów, można sformułować następująco: 


Mając dostępne obydwa wejściowe obrazy z gradacją szarości oraz 
odpowiadającą im maskę zmian (obraz binarny), znaleźć dwa ob- 
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razy binarne, tzw. maski obiektu ruchomego, odpowiadające obrazom 
wejściowym, w których odróżniony byłby poruszający się obiekt od 
statycznego tła. 


W takim przypadku detekcja ruchu polega na zaetykietowaniu wszystkich piksli sekwen- 
cji obrazów z gradacją szarości np. przy pomocy etykiet ze zbioru fa,b), przy czym a 
symbolizuje przynależność piksla do obiektu ruchomego, b oznacza, że dany piksel należy 
do statycznego tła. 

Gdyby detekcja ruchu została przeprowadzona bezbłędnie, to w przypadku maski 
obiektu ruchomego z chwili wcześniejszej, etykiety a powinny być przypisane wszystkim 
tym pikslom, w których zmiany funkcji jasności zostały spowodowane sytuacjami (ruch, 
tło), (ruch, ruch). W przypadku maski obiektu ruchomego z chwili późniejszej etykieta a 
musiałaby być przyporządkowana piksłom, w których wykryte zmiany zostały spowodo- 
wane sytuacjami (ruch, ruch) oraz (tło, ruch). 

W tym miejscu należy wyraźnie zaznaczyć, że gdy w dalszej części rozprawy będzie 
mowa np. o sytuacji (ruch, ruch), to dotyczy to tylko rozważań teoretycznych, natomiast 
gdy wymieniona będzie realizacja (a, a), to oznacza, że dany piksel w kolejnych dwóch 
obrazach sekwencji został zaliczony do poruszającego się obiektu. 

W przypadku rzeczywistych sekwencji znalezienie dwóch masek obiektów, na podsta- 
wie tylko dwóch obrazów z gradacją szarości oraz odpowiadającej im jednej masce zmian 
w obrazie, jest niemożliwe. Wyjątek stanowią sekwencje, w których występuje wyraźna 
różnica pomiędzy jasnością tła i obiektu oraz dostępna jest pełna wiedza o wartościach 
tych jasności. W [Nie93] przedstawiono metodę znajdowania masek obiektu przy użyciu 
trzech obrazów, tj. na podstawie dwóch masek zmian. Przedstawiona metoda opiera się 
jednak na zbyt dużych uproszczeniach. Warunkiem wykrycia masek obiektu jest niewy- 
stępowanie sytuacji (ruch, ruch). 

W [BL90, LB90] przedstawiono metodę dokonującą detekcji ruchu ma podstawie ma- 
sek zmian dla sekwencji dłuższych niż dwa obrazy. Powyższa metoda stała się punktem 
wyjścia dla opracowania nowych algorytmów, które zaprezentowano w dalszej części roz- 
prawy. 


ŚLEDZENIE RUCHU 


Zadanie śledzenia ruchu polega na „podążaniu” za poruszającym się obiektem. Podąża- 
nie takie może być rozumiane w sensie dosłownym. tzn. jako zmiana położenia kamery, 
tak aby „obserwowany” obiekt znajdował się zawsze w środku sceny [AT90], lub jako 
przedstawienie zmian położenia obiektu w poszczególnych chwilach czasu, gdy kamera 
jest stacjonarna. Pierwszy sposób „obserwacji” obiektów można by nazwać śledzeniem 
aktywnym w przeciwieństwie do śledzenia pasywnego, gdy pozycja kamery nie ulega zmia- 
nie. Przejście z podejścia pasywnego do aktywnego wymaga dodatkowo określenia sposobu 
zmiany położenia kamery na podstawie wykrytego przemieszczenia obiektu. 

W dalszej części pracy pod nazwą śledzenie będzie zawsze rozumiane śledzenie pa- 
sywne. Z formalnego punktu widzenia 


zadanie śledzenia ruchu obiektu przy użyciu komputerowego systemu wizyjnego 
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polega na określeniu położenia tego obiektu w kazdej chwili czasowej, czyli zna- 
lezieniu trajektorii jego ruchu. 


W literaturze znanych jest kilka podejść do tak postawionego problemu. Często jako 
punkt wyjścia przyjmuje się ruchome narożniki [SJ87, SS90, DN82]. Niekiedy taki sposób 
„obserwacji” obiektu określa się mianem ustalania odpowiedniości pomiędzy narożnikami 
z kolejnych obrazów sekwencji. Ze względu na możliwości pojawiania się i znikania po- 
jedynczych narożników w kolejnych obrazach, śledzenie ruchu przy użyciu narożników 
ruchomych może być bardzo skomplikowane. W [SJ87] podano kryterium nazwane spój- 
nością ścieżki, które zostało następnie zapisane w postaci funkcji zgodności. Określenie 
odpowiedniości pomiędzy narożnikami z różnych obrazów polega na takim wyborze relacji 
pomiędzy narożnikami, aby zapewnić jednocześnie minimum funkcji zgodności. 

Bardzo interesujące podejście do śledzenia ruchu przy użyciu narożników przedsta- 
wiono w [DN82]. Aby ustalić odpowiedniość narożników dodatkowo założono, że poru- 
szający się obiekt można aproksymować przy pomocy pewnej bryły przestrzennej, której 
wierzchołkami są znalezione narożniki. 

W przypadku, gdy analiza ruchu polega na poszukiwaniu maski obiektu, zadanie śle- 
dzenia można rozumieć jako przedstawienie zmian położenia obiektu w kolejnych chwilach 
czasowych, tzn. na przedstawieniu sekwencji znalezionych masek obiektu ruchomego. Tak 
też jest ono rozumiane w dalszej części rozprawy. 


2.2 Pola Markowa w komputerowej analizie obra- 
ZOW 
2.2.1 Pola Markowa a procesy Markowa 


Pola Markowa są uogólnieniem modeli statystycznych, zwanych procesami Markowa, na 
sygnały określone w przestrzeniach wielowymiarowych. W algorytmach komputerowych 
opartych na statystyce matematycznej, ze względu na sposób reprezentacji przetwarzanej 
informacji, zazwyczaj wykorzystuje się modele określone na dyskretnej dziedzinie. Często 
przyjmowane jest też dodatkowe założenie o dyskretności zbibru możliwych stanów mo- 
delu losowego. Wymienione przyczyny składają się na fakt, że dla potrzeb komputerowej 
analizy obrazów pola Markowa są jedynie uogólnieniem na przestrzenie wielowymiarowe 
łańcuchów Markowa |por8T, Bob86, Pac85]. Łańcuchy Markowa, ze względu na swój cha- 
rakter, są wykorzystywane do modelowania sygnałów dyskretnych zależnych od jednej 
zmiennej dyskretnej. W przypadku pól losowych liczba dyskretnych zmiennych nieza- 
leżnych jest większa niż jeden. W rozważaniach przedstawionych w niniejszym rozdziale 
ograniczono się do sygnałów o dyskretnym zbiorze wartości i o dwu- lub trójwymiarowej 
dziedzinie dyskretnej. Właśnie taki charakter ma informacja, jaką niosą ze sobą pojedyn- 
cze obrazy komputerowe lub ich sekwencje. Chociaż przedstawiony aparat matematyczny 
można bez problemu przenieść na sygnały określone na dziedzinach o dowolnym wymiarze, 
to jednak w praktyce. ze względu na rozmiar otrzymywanego zadania, jego wykorzystanie 
jest bardzo utrudnione 

W przypadku łańcucha Markowa istnieje dyskretna jednowymiarowa zmienna nie- 
zależna, przebiegającej pewien uporządkowany zbiór (np. podzbiór liczb naturalnych). 
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Rys. 2.2: Przykładowy ciąg Markowa. 


Zmienna ta, zwyczajowo zwana czasem, determinuje fakt, że kolejne próbki modelowa- 
nego sygnału pojawiają się w sposób uporządkowany. Dzięki istnieniu takiej zmiennej, w 
teorii łańcuchów losowych pojawiają się takie pojęcia jak przeszłość, teraźniejszość czy 
przyszłość, por. rys. 2.2. Należy tu jednak podkreślić, że jednowymiarowość łańcucha lo- 
sowego jest związana tylko ze zmienną niezależną i niekoniecznie musi dotyczyć informacji 
niesionej przez sam sygnał. Do modelowania tej informacji można użyć na przykład wie- 
lowymiarowej zmiennej losowej, ale kolejne próbki z takiego rozkładu muszą pojawiać się 
w pewnej sekwencji. Sposób uporządkowania łańcucha losowego określony jest poprzez 
wzajemne zależności sąsiednich próbek modelowanego sygnału. Zależności te określane są 
podczas identyfikacji modelu zwanego łańcuchem Markowa. 

W przypadku pól losowych wielowymiarowość nie tylko może dotyczyć informacji nie- 
sionej przez sygnał, ale bezwzględnie wiąże się z dziedziną tego sygnału. 

Jednym z podstawowych założeń w teorii łańcuchów Markowa jest to, że zależność 
informacji niesionej przez sygnał w danej chwili od próbek informacji z przeszłości jest 
ograniczona do pewnej liczby tych próbek. Liczba próbek sygnału z przeszłości, które 
mają wpływ na informację niesioną przez sygnał w chwili bieżącej nazywana jest rzędem 
łańcucha. Z pojęciem rzędu związane są pojęcia sąsiada i sąsiedztwa. Sqstadem nazy- 
wamy tę próbkę sygnału z przeszłości, która ma wpływ na rozkład prawdopodobieństwa 
informacji w chwili aktualnej, natomiast sąsiedztwem zbiór wszystkich takich próbek. 

Związki pomiędzy sąsiednimi próbkami informacji łańcucha Markowa określa się za 
pomocą warunkowych rozkładów prawdopodobieństwa informacji niesionej przez sygnał 
w chwili aktuałnej pod warunkiem zaistnienia próbek sygnału z przeszłości. Oczywiście 
komplikacja modelu rośnie wraz ze wzrostem przyjętego rzędu łańcucha. 

Znajomość próbek sygnału z poprzednich chwil daje możliwość predykcji informacji w 
chwili bieżącej. Wymieniona cecha decyduje często o.użyteczności modeli statystycznych 
zwanych łańcuchami Markowa. 

Pola Markowa, ze względu na wielowymiarowość przestrzeni, na której są określone, 
są pozbawione własności uporządkowania kolejnych próbek informacji. Wyjątek stano- 
wią, znane z literatury, przyczynowe pola Markowa (ang. Markov Mesh Models) [Kan80, 
Lac87, JW91]. W przypadku nieprzyczynowych pól Markowa mamy do czynienia z po- 
jęciem sąsiedztwa, natomiast nie istnieje pojęcie przeszłości, a to oznacza niemożność 
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przeprowadzenia predykcji informacji bieżącej. Istniejące algorytmy, na przykład znajdo- 
wania wartości modalnej (mody) pola Markowa, tzn. najbardziej prawdopodobnej reali- 
zacji rozkładu pola Markowa, często napotykają barierę czasu potrzebnego na znalezienie 
optymalnego rozwiązania. 

Teoria łańcuchów Markowa jest dobrze znana. Pojawiło się wiele prac bezpośrednio 
zajmujących się tym problemem, por. [Fel68]. Istnieją również opracowania omawiające 
konkretne zastosowania tych modeli, np. w automatycznym rozpoznawaniu mowy [Wrz93]. 
Teoria pól Markowa rozwija się ostatnio dość szybko, jednak w zależności od konkretnych 
zastosowań przyjmowane są różne założenia upraszczające. W kolejnych podrozdziałach 
zajmiemy się polami Markowa w aspekcie ich zastosowań do rozwiązywania problemów 
wizji komputerowej. 


2.2.2 Pola Markowa — rys historyczny 


W literaturze ostatnich dwudziestu lat pojawiło się wiele prac poruszających problema- 
tykę wykorzystania pól Markowa w komputerowej analizie obrazów. Wydaje się jednak, 
że największe zasługi w rozwoju i zaadoptowaniu tej części statystyki matematycznej dla 
potrzeb wizji komputerowej ma Besag (dzięki publikacji pracy [Bes74]). W jego artykule 
zostały zamieszczone zasadnicze twierdzenia teorii pól Markowa. W szczególności, przy- 
toczono twierdzenie Hammersley’a-Cliforda (HC), które przedstawiono również z nowym 
dowodem wykorzystującym mniej skomplikowany aparat matematyczny. Omówiono także 
wnioski wynikające z tego twierdzenia. Poza tym można tam znaleźć ciekawe przykłady 
wykorzystania omawianej teorii. W [Bes74] zostały zaproponowane również rodziny wa- 
runkowych rozkładów prawdopodobieństwa lokalnie opisujące zależności pola Markowa. 
Wspomniane rozkłady losowe zostały nazwane przez autora autorozkładami. W autoroz- 
kładach uwzględnione są ograniczenia wynikające z twierdzenie HC. Zastosowanie pojęcia 
kodingów (ang. codings), jako metody estymacji parametrów pola Markowa, miało również 
duże znaczenie, ze względu na późniejsze wykorzystanie tej metody przez innych auto- 
rów [CJ83]. Besag w kolejnych swoich pracach zaproponował inny sposób znajdowania 
parametrów pola Markowa. oparty na wprowadzonym przez siebie pojęciu pseudowiaro- 
godności [Bes86]. 

Inną ciekawą pracą z tego zakresu jest artykuł Gemanów z roku 1984 [GG84]. W pracy 
tej przedstawiono twierdzenie o równoważności modeli pól Markowa z rozkładem Gibbsa. 
znanym od dawna w fizyce statystycznej. Co prawda. rozkład Gibbsa wprowadzili do 
analizy obrazów Hassner i Sklansky już w roku 1980 [HS80]. ale wspomniane twierdzenie 
zostało po raz pierwszy przedstawione w sposób pełny dopiero w pracy [GG84]. 

Dzięki udowodnionej równoważności rozkładu pola Markowa z rozkładem Gibbsa, zna- 
leziono sposób estymowania mody takiego rozkładu, zwany symulowanym wyżarzaniemi. 
Pojęcie to wprowadzono do literatury w pracy |[KGV83]. Oparte jest ono na analogii ze 
zjawiskiem wyżarzania, które w skrócie można przedstawić następująco: zaczynając od 
bardzo wysokiej temperatury układu wyżarzanego, a następnie obniżając ją stopniowo, 
można doprowadzić układ do stanu o minimalnej energii. W rozkładzie Gibbsa minimum 
energii odpowiada jego modzie. Na tej podstawie został zaproponowany algorytm stocha- 
stycznej relaksacji z wolnozmiennym parametrem temperatury. Algorytm ten znany jest 
pod nazwą impulsatora Gibbsa [GG84]. 
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W pracy [GG84] zamieszczono odpowiednie twierdzenia i ich dowody, podając również 
funkcję zmiany temperatury, która zapewnia optymalność otrzymanego rozwiązania, nie- 
stety w czasie t + oo. W ten sposób został poruszony jeden z podstawowych problemów 
wiążących się z wykorzystaniem modeli pól Markowa, a mianowicie czas potrzebny do 
znalezienia rozwiązania. Każdy z autorów uporał się z tym zagadnieniem w zależności 
od swoich potrzeb, proponując jednak rozwiązania suboptymalne, por. [Cha88]. W dobie 
szybko rozwijającego się sprzętu komputerowego można mieć jednak nadzieję, że to co 
obecnie wymaga zbyt dużej mocy obliczeniowej w przyszłości będzie osiągalne nawet dla 
zwykłych komputerów osobistych, być może nawet o architekturze szeregowej. 

Praca [GG84] miała również aspekt praktyczny. Przedstawiono tam przykład wyko- 
rzystania pól Markowa do restauracji obrazów, wraz ze zdjęciami pokazującymi efekt 
działania algorytmu symulowanego wyżarzania. 

Inni autorzy pracowali bądź nad rozbudową aparatu matematycznego, bądź nad za- 
stosowaniami praktycznymi. W pierwszym przypadku zajmowano się: 


e algorytmami estymacji parametrów pól Markowa [Bes86, Vei91], 
e metodami estymowania lokalnych maksimów pola Markowa [Bes86], 


e dowodami zgodności metod maksymalnej entropii z metodami korzystającymi z 
rozkładu Gibbsa [Tru80], 


e uogólnieniem metod wprowadzonych przez Gemanów na przypadek rozkładów cią- 
głych [JW91], 


« estymowaniem mody (wartości modalnej) rozkładu Gibbsa metodami programowa- 
nia dynamicznego [DE87], 


e porównywaniem rezultatów otrzymywanych dzięki zastosowaniu symulowanego wy- 
żarzania oraz deterministycznej relaksacji do estymacji mody pola Markowa [Jin90, 
KD90]. 

W zastosowaniach praktycznych zaproponowano i przebadano między innymi metody: 

e estymacji i restauracji obrazów [Cha88. Lac87, QT91, EG92, EGK92]. 


znajdowania lub poprawiania potoku optycznego [HB90a, HB90b. Bla90]. 


e znajdowania krawędzi [ZC90], 


detekcji masek obiektów ruchomych [BL90, LB90], 


e segmentacji sceny [MB87], 


segmentacji obrazów głębi [GG91, JN90]. 
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2.2.3 Wprowadzenie do teorii pól Markowa 


PODSTAWOWE ZAŁOŻENIA I DEFINICJE 


W dalszej części rozprawy przyjęto następującą konwencję oznaczeń: 
X, - jednowymiarowa zmienna losowa z pozycji i w obrazie, 
X - wielowymiarowa zmienna losowa modelująca cały obraz, 
x, - realizacja zmiennej losowej z pozycji i w obrazie, 
z - realizacja zmiennej losowej X. 


Ponieważ pole losowe jest uogólnieniem łańcucha losowego. więc na zasadzie analogii 
inożna zdefiniować następujące pojęcia: 


Definicja 1 Polem losowym określonym na obszarze S C R", przy czym R oznacza zbiór 
liczb rzeczywistych, nazywamy funkcję, która kazdemu punktowi tego obszaru przyporząd- 
kowuje zmienną losową. 


Obszar S nazywamy dziedziną pola losowego. Zmienną losową przyporządkowaną dowol- 
nemu punktowi nalezacemu do obszaru S nazywamy wartością pola losowego. Zbiór moz- 
liwych wartości przyjmowanych przez zmienne losowe przyporządkowane punktom z ob- 
szaru S nazywamy zbiorem stanów pola losowego. 

W komputerowej analizie obrazów przyjmuje się dodatkowo następujące założenia: 


e dziedzinę pola losowego stanowi skończony podzbiór przestrzeni Z”, przy czym Z 
oznacza zbiór liczb całkowitych. Najczęściej zapisuje się go jako iloczyn kartezjański 
n czynników [0,...,N — 1] x --- x [0,...,N — 1), przy czym [0,...,N — 1] jest 
zbiorem kolejnych N liczb całkowitych od 0 do N — 1. Dzięki takiemu założeniu, 
w komputerowych zastosowaniach rozważanej teorii, dziedzina pola losowego może 
być reprezentowana jako n-wymiarowa tablica. W praktyce n = 2 dla pojedynczego 
obrazu lub n = 3 dla sekwencji obrazów. Dla ustalenia uwagi, w dalszej części tego 
rozdziału, skoncentrujemy się na przypadku n = 2. 


e punktami z definicji I są położenia najmniejszych elementów obrazu komputero- 
wego. W niniejszym rozdziale. ze względu na przyporządkowywanie poszczególnym 
elementom dziedziny obrazu rozkładów losowych, pod nazwą piksel będzie rozu- 
miane samo położenie najmniejszego elementu, określone przez współrzędne (7, 7), 
bez żadnej informacji temu położeniu przyporządkowanej, 


e poszczególnym pikslom przyporządkowuje sie jednowymiarowe dyskretne zmienne 
losowe. Niekiedy można się spotkać z odchodzeniem od założenia o dyskretności. 
Ma to miejsce, gdv modelowana informacja jest reprezentowana przez odpowiednio 
dużą liczbę dyskretnych wartości. na przykład 2°. W takiej sytuacji obliczenia są 
prowadzone tak samo jak dla ciągłych rozkładów prawdopodobieństwa, a dopiero w 
końcowym etapie dokonuje się dyskretyzacji otrzymanych wyników [Bes86]. 

Z definicji 1 oraz przyjętych założeń wynika, że w przypadku komputerowej analizy 
obrazów, pole losowe jest pewnym skończonym zbiorem jednowymiarowych zmiennych lo- 
sowych. Pole takie może być również opisane wielowymiarowym rozkładem, którego roz- 
kładami brzegowymi są rozkłady w poszczególnych pikslach obrazu. Gdyby te rozkłady 
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były między sobą niezależne, to łączny rozkład prawdopodobieństwa stałby się zwykłym 
iloczynem rozkładów brzegowych [por87]. Właśnie na takim założeniu jest oparta duża 
liczba metod komputerowej analizy obrazów korzystających z modeli statystycznych in- 
nych niż pola Markowa, np. por. [NP90, BHM86]. 

Oznaczmy przez S = [0,..., N — 1] x [0,..., N — 1] dziedzinę obrazu (dziedzinę pola 
losowego). Załóżmy, że wszystkie piksle (k,l) należące do S ustawimy w pewien wybrany 
sposób w ciąg, taki że: 

{X1,...,Xi,..., Xm} jest polem losowym, przy czym: i € S,M = N?. 


Definicja 2 Przestrzenią obrazów określonych na dziedzinie S nazywamy skończony zbiór 
Q możliwych odwzorowań S — LM, przy czym L-skoriczony zbiór wartości. 


Zbiór L jest zbiorem stanów pola losowego. Zgodnie z definicją 2 zbiór 2 nie musi być 
zbiorem wszystkich możliwych odwzorowań S — LM. W praktyce Q określane jest w 
ten sposób, aby było zbiorem wszystkich realizacji z, M-wymiarowej zmiennej losowej X 
modelującej cały obraz, określonej na pewnej przestrzeni probabilistycznej o prawdopo- 
dobieństwie P. 


Definicja 3 Polem Markowa nazywamy pole losowe, opisane rozkładem wielowymiarowej 
zmiennej losowej X określonej na pewnej przestrzeni probabilistycznej o prawdopodobień- 
stwie P i o wartościach należących do pewnej przestrzeni obrazów 2; dla którego spełnione 
są następujące warunki: 
1) warunek dodatniości: 

P(X = z) > 0 dla każdego x € Q, przy czym X = {X,...,Xmu}, 
2) warunek Markowa: 

P(X; = 2; | 21... ,Ti—1, Ti41,---, TM) = P(X; = 2; | sąsiedzi 1). 


Dla konkretnego pola Markowa X, o wartościach z pewnej ustalonej przestrzeni obra- 
zów Q, będącej zbiorem odwzorowań S — LM, zbiór L jest zbiorem stanów tego pola 
Markowa’. 

Z definicji 3 wynika również pojęcie sąsiada piksla i. Sqsiadamı piksla i nazywane są 
wszystkie piksle j takie że: P(X, = z, | qy,..., Zi-1,Zig1,---, Tm) zależy od z;. 


Lemat 1 Piksel i jest sąsiadem piksla j wtedy i tylko wtedy, gdy piksel ) jest sąsiadem 
piksla i 


W praktyce arbitralnie określa się, które piksle należące do dziedziny pola losowego są 
sąsiadami piksla 7. Najczęściej dokonuje się tego na podstawie kryterium „odpowiednio 
małej” odległości euklidesowej w przestrzeni Z”, przy czym n wymiar przestrzeni. na któ- 
rej pole Markowa jest określone. Zazwyczaj ustala się pewną wartość progową odległości. 
taką, że wszystkie piksle oddalone więcej niż ta wartość od piksla aktualnego nie mają 
już wpływu na rozkład prawdopodobieństwa informacji w aktualnym pikslu 

Poniżej przedstawiono definicje jeszcze dwóch pojęć wiążących się z polami Markowa 

1W przypadku obrazów z gradacją szarości, L jest zazwyczaj przedziałem domkniętym ze zbioru liczb 


naturalnych [0, Lmaz — 1], przy czym Lma: = 2°, natomiast a jest liczbą bitów przypadającą na jeden 
piksel 
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Definicja 4 Sąsiedztwem S; piksla i nazywamy zbiór wszystkich piksli j, które są sąsia- 
dami i. 


Definicja 5 Systemem sąsiedztwa S dziedziny obrazu S nazywamy zbiór sąsiedztw S; 
wszystkich piksli i należących do tej dziedziny. 


RODZAJE PÓL MARKOWA 


Pola Markowa można podzielić na dwie następujące klasy: 
e przyczynowe; 


e nieprzyczynowe. 


Przyczynowe pola Markowa znane są w literaturze pod anglojęzyczną nazwą Mar- 
kov Mesh Models. W rzeczywistości, są one praktycznie bezpośrednim przeniesieniem po- 
jęć z teorii łańcuchów Markowa na sygnały o więcej niż jednej zmiennej niezależnej. W 
modelach tych wprowadzono pojęcie przeszłości danego piksla. Oznacza to, że przyna- 
leżność do sąsiedztwa jest zdeterminowana nie tylko bliskością geometryczną, ale także 
kierunkiem. Innymi słowy zakłada się, że nie wszystkie najbliżej położone piksle mają 
wpływ na rozkład prawdopodobieństwa informacji w pikslu rozważanym. Prace prowa- 
dzone przez niektórych autorów pokazały, że pomimo takich założeń, zastosowanie mo- 
deli przyczynowych w wizji komputerowej prowadzi niekiedy do całkiem dobrych rezulta- 
tów [JW91, Lac87, QT91]. W praktyce dość często stosuje się gaussowskie przyczynowe 
pola Markowa [JW91]. Formalnie, pole takie można opisać następującymi zależnościami: 


f(i,j) = Ds cu- f(t — kj — l) + w(i, j), (2.7) 
(k,QERt 
przy czym: R* = {(k,l) : (—k.-l) € R*(0,0)} - przeszłość piksla. f(i,j) - jasność 
w pikslu o współrzędnych (1,7), w(2,7) - biały szum, cy — współczynniki. Na rys. 2.3 
przedstawiono przykład sąsiedztwa R* przyczynowego pola Markowa [JW91]. 
Zaletą przyczynowych pól Markowa jest to. że przeglądając obraz piksel po pikslu 
w pewnym określonym porządku można. znając rozkłady warunkowe przejścia z jednego 
stanu (np. jednego poziomu jasności) do drugiego. przeprowadzić symulację stochastyczną 
takiego pola. Tak więc, znając wartości funkcji jasności z przeszłości oraz macierz tran- 
zycji. można dokonać predykcji informacji związanej z rozważanym pikslem. 


Nieprzyczynowe pola Markowa. W przypadku nieprzyczynowych pól Markowa po- 
Jęcie przeszłości traci sens. Jako kryterium sąsiedztwa przyjmuje się jedvnie możliwie małą 
wartość odległości euklidesowej. Rozkład prawdopodobieństwa informacji w danym pikslu 
zależy od jej próbek we wszystkich pikslach położonych odpowiednio blisko względem pik- 
sla rozważanego. Formalnie, w przypadku gaussowskich nieprzyczynowych pól Markowa, 
zależność taka daje się opisać za pomocą wzorów [JW91]: 


f= YO ca fli- k, j - 01) + w(i, j). (2.8) 


(k I)ER 
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- piksel należący do przeszłości (i, j) 


Rys. 2.3: Przykład sąsiedztwa przyczynowego pola Markowa. 


Rys. 2.4: Przykładowe sąsiedztwo nieprzyczynowego pola Markowa. 


przy czym: f(i,j) — jasność w pikslu o współrzędnych (i,j), ce — współczynniki, R - 
sąsiedztwo piksla, w(i, j) — pole losowe Gaussa o kowariancji: 


Ow" (i, j) = (k,l) 
Elw(i,j)w(k,l)] = | ekt Oe (1-kJ-0)ER (2.9) 
0 w pozostałych przypadkach. 


Najprostszy model sąsiedztwa R został przedstawiony na rys. 2.4. 

Nieprzyczynowe pola Markowa wydają się w pełni uwzględniać cechy charaktery- 
styczne sygnałów, jakimi są obrazy, tzn. uwzględniają zależność informacji związanej z 
sąsiednimi pikslami. Ze względu na brak pojęcia przeszłości, predykcja informacji nie 
jest tak łatwa do przeprowadzenia jak w przypadku pól przyczynowych. Istnieją jednak 
metody, o czym będzie mowa w dalszej części tego rozdziału, pozwalające znajdować 
parametr położenia rozkładu pola Markowa, jakim jest jego moda. 


2.2.4 Nieprzyczynowe pola Markowa 


W dalszej części pracy zajmiemy się wyłącznie polami nieprzyczynowymi, nazywając je 
po prostu polami Markowa. 


RZĄD POLA MARKOWA ORAZ POJĘCIE KLIKI 
Pojęcie rzędu pola Markowa jest zbliżone do pojęcia rzędu łańcucha Markowa. Jak wia- 


domo, rząd łańcucha Markowa równa się liczbie próbek sygnału z przeszłości, które mają 
wpływ na rozkład prawdopodobieństwa informacji w chwili bieżącej. Podobnie dla pól 
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Rys. 2.5: Model sąsiedztwa pola Markowa w zależności od przyjętego rzędu. 


e o—e | 
{(4,3)} {5-149}  (66-—1,5),(1,3)) 


Rys. 2.6: Rodzaje klik dla modelu sąsiedztwa rzędu 1. 


losowych. rząd określa, które piksle z otoczenia wpływają na rozkład prawdopodobień- 
stwa w pikslu aktualnym, a więc determinuje przynależność do sąsiedztwa danego piksla. 
W przeciwieństwie do łańcuchów, zależność pomiędzy rzędem a liczbą sąsiadów piksla 
nie ma charakteru liniowego. Oznaczając sąsiedztwo piksla (i, j) przez S,, można wyrazić 
warunek przynależności piksla (k,l) do sąsiedztwa piksla (7,7) przez: 


(k,l) € Sj 20 <(k-i) + (1-5) <c, (2.10) 


przy czym: c ~ pewna stała większa od zera. 

Przyjmując c = 1.2.4,5,..., otrzymujemy sąsiedztwa odpowiadające kolejnym rzędom 
1.2.3.4.... pola Markowa. Na rys. 2.5 odpowiednimi liczbami zaznaczone są piksle, które 
należą do sąsiedztwa określonego rzędu, przy czym piksle o numerze mniejszym należą 
również do sąsiedztwa o numerze większym. Często w celu podkreślenia faktu, że wraz ze 
zmianą rzędu pola zmienia się kształt sąsiedztwa piksla, mówi się że rząd pola Markowa 
odpowiada za jego model sąsiedztwa. Pojęcia sąsiedztwa 1 modelu sąsiedztwa używane są 
wymiennie 

Rząd pola Markowa jest zazwyczaj parametrem wybieranym arbitralnie. Tylko niektó- 
rzy autorzy próbowali określić wpływ przyjętego rzędu na wynik działania proponowanych 
przez siebie algorytmów, na przykład w [CJ83], ale otrzymane wyniki wskazują raczej na 
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ROWE > 


(i) i++) t65),6-1,3-1))  (65)( — 1,5),(i — 1,5 + 1)) 


N AA 


{i 4) (i +1,5), (ij — 1)) {(i j) (ij +1), (i — 1,3 + 1)) 
Ua) (i bad 1,5), (ij as 1)} {(2,9), (%3 + 1), (ż "z 1,7 ss 1), (i m 1,7)} 


Rys. 2.7: Dodatkowe kliki dla modelu sąsiedztwa rzędu 2. 


o o o 
(4,5), (i — 1,5), (i + 1, j)} {(i j), (ij — 1), (ij + 1)) 
E (@- 1,5),(1 + 1,5).(1,j + 1)) 1(1.7).(1,3 — 1), (@- 1,7), (t+ 1,9)} 
{(i,9), (1,5 — 1), (i,3 + 1),(i + 1.3)) (63),(1,3 — 1). (ij + 1), (i — 1,5)) 


Rys. 2.8: Dodatkowe kliki dla modelu sąsiedztwa rzędu 3. 
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powierzchowne przebadanie zagadnienia. 
Bezpośrednio z modelem sąsiedztwa, a więc i z rzędem pola Markowa, związane jest 
pojęcie kliki. Poniżej zamieszczono jego definicję: 


Definicja 6 Każdy podzbiór dziedziny pola losowego, taki ze nalezy do niego pojedynczy 
piksel, bądź więcej niz jeden piksel, ale każde dwa nalezące do tego podzbioru piksle są 
sąsiadami, nazywa się kliką. 


Przy modelach sąsiedztwa pierwszego, drugiego i trzeciego rzędu mamy do czynienia 
z rodzajami klik przedstawionymi na rys. 2.6, 2.7 i 2.8. Oczywiście zbiór klik modelu 
wyższego rzędu zawiera również wszystkie kliki modelu rzędu niższego. Zazwyczaj zbiór 
wszystkich klik obrazu oznacza się przez C, a przez C* podzbiór klik i-pikslowych. 


ZALEŻNOŚCI MATEMATYCZNE OPISUJĄCE POLA MARKOWA 


Zgodnie z definicją 3 pole losowe może być formalnie opisane przy użyciu: 
e łącznego, wielowymiarowego rozkładu prawdopodobieństwa [Bes74], oraz 


e zbioru lokalnych, warunkowych rozkładów prawdopodobieństwa zwanych charakte- 
rystykami lokalnymi [GG84]. 


Gdyby model matematyczny miał wykorzystywać łączny rozkład prawdopodobieństwa, 
to w celu jego identyfikacji należałoby, bądź podać M-wymiarową funkcję tego rozkładu, 
przy czym M — liczba punktów modelowanego obszaru, lub funkcję gęstości w przypadku 
rozkładów ciągłych, bądź w jakiś sposób określić wszystkie rozkłady brzegowe aż do wy- 
miaru M —1. W praktyce, poza rozważaniami teoretycznymi, taki opis nie bardzo ma sens 
ze względu na wymiar łącznego rozkładu prawdopodobieństwa. Z tego powodu, model wy- 
korzystujący lokalne charakterystyki wydaje się o wiele atrakcyjniejszy. Merytoryczna po- 
prawność opisu pola losowego za pomocą warunkowych rozkładów prawdopodobieństwa 
została pokazana w [Bes74]. Oczywiście, jak to przedstawiono we wspomnianej pracy, 
istnieje ścisły związek pomiędzy obydwoma wymienionymi opisami. 

Niech x= fq,.. .Ty) i y= ły,...,ym) będą dwiema realizacjami z przestrzeni 
obrazów Q. Dzięki warunkowi dodatniości z definicji 3, można pokazać słuszność nastę- 
pującego równania: 


PX =a) A II P(X STN yy oo Dials UT 1 /M0) 


P(X = y) POG=W |= Bicis Ys41:---1YM) 


(2.11) 


Dowód poprawności równania (2.11) zamieszczono w [Bes74]. Podstawiając y = z,. 
przy czym z; = {2},..., Ti 1,0, £ią1,.-.,7M), tzn. obraz x, jest obrazem x z wstawioną 
wartością 0 w pozycji 4, oraz korzystając z pojęcia sąsiada piksla i, otrzymujemy: 

P(X =z) _P(X, = z; | sąstedzit) 
P(X =z,;) P(X,=0| sasiedzii) 

Istnieje ścisły związek pomiędzy rzędem pola Markowa, czyli licznością sąsiedztwa. a 
postacią funkcji opisujących lokalne rozkłady warunkowe. Zależność tę określa twierdzenie 
Hammersley'a-Cliforda (HC) przedstawione w [Bes74]. 


(2.12) 
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Twierdzenie 1 (Hammersley-Cliford) Niech będzie dany model sąsiedztwa pola Mar- 
kowa oraz niech o oznacza taki obraz z przestrzeni obrazów Q, dla którego funkcja jasności 
jest równa zero w każdym pikslu. Przedstawmy funkcję wyrażającą stosunek P(X = zx) i 
P(X = o), przy czym z jest pewnym obrazem z przestrzeni Q, w postaci: 


P(X = z) 
—— = exp 1;G;(z;) + T;T;G; ;(T;, tj) +- 
P(X =0) ou ou eu ia i 
+ Tif- ,TMG2,.„M(T1,---,TM)|- (2.13) 


Przy powyższych założeniach, funkcje G,,..„(...) mogą być różne od zera wtedy i tylko 
wtedy, gdy {i,j,...,s} stanowią klikę. 


Bezpośrednim wnioskiem wynikającym z twierdzenia HC jest to, że lokalny i globalny 
warunek Markowa są ze sobą równoważne [Bes74], tzn. 


P(X; = 1;, X; =2;,...,X, = 2x, | pozostałe piksle) = 
P(X = tu Xj = Gy Xe — 2s | sąsiedzi i Ji 55.8): (2.14) 


Dla przykładu przyjmijmy, że mamy do czynienia wyłącznie z klikami drugiego rzędu. 
Dzięki twierdzeniu 1 wzór (2.12) sprowadza się do postaci: 


Se = orfa go t FeCl) ) , (2.15) 


przy czym j jest sąsiadem i. Ponieważ, zgodnie z przyjętymi założeniami, z, może przyj- 
mować wartości ze skończonego zbioru L, więc korzystając z równania (2.15) i dokonując 
prostych przekształceń, można wyprowadzić wzór na prawdopodobieństwo warunkowe po- 
jawienia się informacji z; w pikslu i, czyli wzór charakterystyki lokalnej pola Markowa. 
Przyjmując 


fi(z;) = z;G;(1,) + z, $ 1,G,,(1,.1,) , przy czym j jest sąsiadem i, (2.16) 
J 
otrzymujemy 
exp [fi(zi)] 


P(X; = z, | sąsiedzi i) = =—— a: 
( w, | sąsiedzi i) Danel exp [/,(z:)] 


(2.17) 


przy czym L - zbiór stanów pola Markowa. 
Korzystając ze wzoru (2.13) można zdefiniować następujące klasy pól Markowa: 


e pola jednorodne, 
e pola izotropowe. 


Definicja 7 Pole Markowa nazywane jest polem jednorodnym jeśli wszystkie funkcje 
Gij k (Ti, Tj,- --, Tp) nie zależą od (i.j..... K). a zależą tylko od wartości T;, £;,..-TK- 


Definicja 8 Pole Markowa, dla którego wszystkie funkcje G,, „k(T:,7;.---,Tk), dla klik 
o jednakowej liczebności, są identyczne. nazywa stę polem izotropowym 
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Zakładając izotropowość pola lub jego jednorodność, uzyskuje się znaczne uproszczenie 
modelu, a tym samym i obliczeń. 

W przedstawionym opisie matematycznym pól Markowa za pomocą charakterystyk 
lokalnych niektórzy autorzy zauważają pewne wady [GG84], a mianowicie: 


e łączny rozkład prawdopodobieństwa nie daje się wyrazić za pomocą wzoru mate- 
matycznego, 


e trudno jest stwierdzić kiedy zadany zbiór funkcji g(x; | zj), przy czym i # J, 
(%,...,Tm) E Q, stanowi zbiór charakterystyk lokalnych pewnego pola Markowa. 


W pracach [Bes74, Bes86] przedstawiono kilka przykładów charakterystyk lokalnych 
pola Markowa spełniających założenia twierdzenia HC. Jednym z częściej używanych jest 
rozkład dwumianowy [CJ83, por87], w którym parametr ©,, tego rozkładu zależy od 
wartości funkcji jasności w pikslach sąsiednich oraz spełniony jest dla niego warunek: 


exp(T.;) 


= lü). 2.18 
” 1+exp(T;;) Ss 
przy czym T,, (przy założeniu że rząd pola Markowa wynosi 1) jest równe: 
Ty = a(i, j) + bu (i, J)(Ds5—1 + Tin) + bi(i, J)(Zi-1g + Tia 5)- (2.19) 
W takim przypadku charakterystyka lokalna pola Markowa przybiera postać: 
P(X;; = zi; | sąsiedzi (i, j)) = ( = ) 8;;: (1 — Oy), (2.20) 
A ij 


przy czym Lmaz — wartość maksymalnej jasności obrazu modelowanego polem Markowa. 

Zakładając izotropowość i jednorodność takiego dwumianowego pola, liczba niezna- 
nych parametrów redukuje się do dwóch. Gdy rząd pola jest większy niż 1, to w zaprezento- 
wanym modelu, wzrasta liczba parametrów b o liczbę nowych rodzajów klik pojawiających 
się w modelu sąsiedztwa. 


ROZKŁAD GIBBSA 


W [DES87] przedstawiono następującą definicję: 
Definicja 9 Niech S będzie systemem sąsiedztwa, wg definicji 5, dziedziny obrazu S, przy 


czym S = Oa N — 1] x [0.....N — 1]. Pole losowe X = {X,;} z systemem sąsiedztwa 
S o łącznej gęstości prawdopodobieństwa w postaci: 


P(X=z)= z %Pl-W(2)), (2.21) 


przy czym: 
W (z) = Yee V.(z) - energia obrazu z, 
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V(x) - energia kliki? c, 
Z = Exen exp[-W (2)] - funkcja rozdziału (stała normalizacji), 
jest polem losowym o rozkładzie Gibbsa z systemem sąsiedztwa S. 


Energia kliki V-(x) jest taką funkcją określoną na obrazie x, która wszędzie poze pik- 
slami należącymi do kliki c musi przyjmować wartość zero. Przedstawiony rozkład Gibbsa 
należy do wykładniczej rodziny rozkładów [DE87]. W wielu opracowaniach funkcję ener- 
gii W definiuje się poprzez nową funkcję W'(z) taką, ze W(x) = 4W'(x), przy czym T 
jest parametrem zwanym temperaturą przez analogię z fizycznymi układami opisenymi 
rozkładem Gibbsa. Taką definicję funkcji energii uzasadnia fakt, że gdy jest ona wykorzy- 
stywana w algorytmach wyżarzania, to poprzez powolną zmianę parametru T znajdowane 
jest globalne minimum energii (GG84). 

W [GG84] podano, że wartość parametru T odpowiada za uwypuklenie lub spłaszcze- 
nie maksimów rozkładu Gibbsa. Gdy T jest duże, to postać P(X) zbliża się do rozkładu 
jednostajnego na Q, gdy T maleje, uwypuklają się mody tego rozkładu. 

Charakterystyki lokalne rozkładu Gibbsa wyrażone są wzorami [GG84|: 


P(X =z) 


PX eNA poy 


(2.22) 
przy czym: i € S, x; = z poza pikslem i. 

Chociaż dla rozkładu Gibbsa łatwo można podać ogólny wzór określający funkcję łącz- 
nego rozkładu, to zazwyczaj w praktyce określenie wartości parametru Z jest niemożliwe. 
Jednak we wzorze (2.22) parametr Z ulega redukcji, a dzięki temu, gdyby były znane 


wszystkie energie klik, to równanie (2.22) nadawało by się do wykorzystania w oblicze- 
niach komputerowych. Często przyjmuje się, że energie klik mają postać [DE87]: 


—Ç dla klik kilkupikslowych jeśli wszystkie 1,;, (i,j) € c, są równe 


Vly =x Ç dla klik kilkupikslowych w pozostałych przypadkach (2.23) 
a, dla klik jednopikslowych gdy x,, = lx. lk E L, 


przy czym Ç może przyjmować różne wartości dla różnego rodzaju klik. 

W pracy [GG84] zajęto się właściwościami łańcuchów losowych, w przypadku których 
stanami są obrazy x należące do pewnej przestrzeni obrazów Q. Zakłada się, że obrazy 
z opisane są pewnym rozkładem Gibbsa. W pracy tej sformułowano i udowodniono trzy 
twierdzenia dotyczące takich łańcuchów losowych 


Twierdzenie 2 (Relaksacja) Niech n,, przy czym t = 1,2,-++, będzie pewnym ciągiem. 
według którego przeglądane są piksle nalezace do dziedziny obrazu S. Niech u kazdym kroku 
w aktualnym pikslu będzie dokonywana próba zmiany przyporządkowanej temu pikslowi 
jasności w następujący sposób: losujemy liczbę z rozkładu charakterystyk! lokalne) danego 


2W literaturze anglojęzycznej V,(1) określane jest mianem funkcji potencjału kliki c. Jednak. jak 
wiadomo z fizyki. energia nie może być sumą potencjałów. dlatego w niniejszej pracy zdecydowano się na 
wprowadzenie pojęcia energii kliki. 


http://rcin.org.pl 
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piksla. Otrzymujemy obraz x' mogący się różnić od aktualnego obrazu z tylko w jednym 
ptkslu. Liczymy stosunek: 

_ P(X = 2") 

~ P(X =z) 

Jeśli q > 1, to nową jasność przyporządkowujemy aktualnemu pikslowi. W przeciwnym 
wypadku losujemy liczbę z rozkładu równomiernego na [0,1]. Jeśli q jest większe bądź 
równe wylosowanej liczbie, to aktualnemu pikslowi przyporządkowujemy nową jasność, w 
przeciwnym przypadku nie dokonujemy zadnych zmian. Załóżmy, że kazdy piksel występuje 
w ciągu n, nieskończenie często. Wtedy. dla dowolnego obrazu początkowego zg E€ Q i dla 
każdego z € 2. rozkład graniczny 


q 


lim P(X(t) = z | X(0) = zo) 


jest rozkładem Gibbsa. 


© 


W twierdzeniu 2 podano sposób znajdowania obrazów będących realizacjami pewnego 
pola losowego Gibbsa. Niestety sposób ten wymaga przeprowadzenia symulacji łańcu- 
cha losowego. Teoretycznie symulacja taka powinna być nieskończenie długa. W praktyce 
liczbę kroków symulacji można ograniczyć, ale i tak wydaje się to być procedura bardzo 
czasochłonna. 

Aby sformułować następne twierdzenie przyjmijmy: W* = maxqgcaW(z) , W, = 
mingen W(z). 


Twierdzenie 3 (Wyżarzanie) Załóżmy, ze istnieje naturalna liczba T > M taka, że 
dla kazdego t = 0,1,2,--- zachodzi: 


DE {re41, 242, oa Nr}, 


przy czym: n, jest sekwencją jak w twierdzeniu 2. Niech T(t) będzie dodatnią, malejącą 
funkcją temperatury, taką że: 
T(t) > 0 jeśli t + oo, 


T(t) > ei dla wszystkich t > tę dla pewnego tę > 2, 


przy czym: M - liczba piksli nalezących do dziedziny obrazu, A = W* — W.. Przy tych 
założeniach dla dowolnego obrazu początkowego £o E Q i dla kazdego obrazu x € N rozkład 
graniczny 

lim P(X(t)=z | X(0) = x0) 


jest. rozkładem równomiernym na %. przy czym Qo = (z € Q : W(x) = minyca W(y)}. 


W twierdzeniu 3 podany jest sposób estymowania najbardziej prawdopodobnej reali- 
zacji rozkładu Gibbsa, tzn. mody tego rozkładu. Metoda oparta jest na symulacji łańcucha 
losowego, a więc jest bardzo czasochłonna. 

Następne twierdzenie dotyczy właściwości ergodyczności łańcucha losowego. którego 
stanami są obrazy opisane pewnym rozkładem Gibbsa. 
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Twierdzenie 4 (Ergodyczność) Załóżmy, że istnieje liczba naturalna rT > M taka, ze 


SC {nis Nt+2,°°°, N47} 


dla każdego t, przy czym rę jest ciągiem jak w Twierdzeniu 3. Przy tym załozeniu, dla 
każdej funkcji Y określonej na Q i dla dowolnego obrazu początkowego zg € 22, zalezność: 


im 2 YY(X(t)) = |" CJdr(w) 


zachodzi z prawdopodobieństwem równym 1. 


Ergodyczności łańcucha losowego, którego stanami są obrazy, w zastosowaniach prak- 
tycznych nie jest dotychczas wykorzystywana. Jednak dzięki tej właściwości możliwym 
jest estymowanie obrazu będącego wartością średnią pewnego rozkładu Gibbsa. 


RÓWNOWAŻNOŚĆ POMIĘDZY POLAMI MARKOWA A ROZKŁADEM 
GIBBSA 


Okazuje się, że modelowanie obrazów za pomocą pól Markowa oraz ich opis przy użyciu 
rozkładu Gibbsa są ze sobą równoważne. W pracy [GG84] podano następujące twierdzenie: 


Twierdzenie 5 (Równoważność) Niech S będzie pewnym. systemem sąsiedztwa pew- 
nego pola losowego. Zmienna losowa X opisuje pewne pole Markowa z systemem sąsiedz- 
twa S, wtedy i tylko wtedy, gdy P(X) ma rozkład prawdopodobieństwa Gibbsa z systemem 
sąsiedztwa S. 


Dzięki takiemu twierdzeniu wzory charakterystyk lokalnych pola Markowa można wy- 
razić za pomocą energii klik [GG84]: 


expl- Eese Vla) — 
Dever EPL F Levee Velai] 


Rozktady Gibbsa i pola Markowa używane są wymiennie. Czasami spotyka się również 
w literaturze określenie: pole losowe Markowa-Gibbsa. 

Jeżeli wybrano już postać pola Markowa-Gibbsa następnym etapem jest przeprowa- 
dzenie estymacji wartości parametrów tego pola, zwanej również w niniejszej rozprawie 
identyfikacją. 


P(X; = 2; | 2; j#i= 


ESTYMACJA PARAMETROW POL MARKOWA-GIBBSA 


Problem określenia wartości parametrów wybranego do obliczeń modelu jest typowy dla 
wszystkich zagadnień, dla rozwiązania których konstruuje się jakiekolwiek modele. W 
każdym zastosowaniu ma on bardzo duże znaczenie, gdyż faktycznie odpowiada za dopa- 
sowanie budowanego modelu do sytuacji, która jest nim opisywana. Oczywiście koncepcja 
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modelu musi odpowiadać modelowanemu zjawisku, gdyż w innym przypadku identyfikacja 
może nie bardzo mieć sens. 

W przypadku modeli statystycznych, identyfikacja sprowadza się do estymacji war- 
tości parametrów poszczególnych rozkładów, zwanych charakterystykami lokalnymi. Sta- 
tystyka matematyczna oferuje wiele różnych metod estymacji parametrów rozkładów lo- 
sowych [Zie90, Bob86]. Zazwyczaj oszacowanie wartości parametru polega na obliczeniu 
wartości pewnej statystyki określonej na próbie, według jakiegoś wcześniej przyjętego kry- 
terium, na przykład największej wiarogodności czy minimum wariancji. Niestety, prak- 
tycznie wszystkie metody statystyki matematycznej korzystają z założenia, że poszcze- 
gólne obserwacje są od siebie niezależne. W przypadku pól Markowa nie jest to prawdą, 
gdyż już przy samej ich definicji zakłada się zależność próbek informacji związanych z 
sąsiednimi pikslami. 

Innym założeniem statystyki matematycznej dotyczącym obserwacji jest przyjęcie re- 
prezentatywności próby [Zie90]. W zadaniach wizji komputerowej spełnienie tego założenia 
nie jest takie oczywiste. Z ogromnej przestrzeni obrazów mamy najczęściej do dyspozy- 
cji tylko jedną próbkę, która wcale nie musi być reprezentatywną dla całego rozkładu 
pola Markowa. O ilę w metodach wizji komputerowej pierwszą z wymienionych trudności 
udaje się jakoś pokonać, o tyle drugi problem jest najczęściej nierozwiązywalny. Zazwy- 
czaj przyjmuje się ad hoc, że dostępna realizacja jest reprezentatywna dla całego rozkładu. 
Niekiedy problem reprezentatywności rozwiązuje się poprzez opracowywanie algorytmów 
z iteracyjną identyfikacją parametrów [Pie92a, Vei91]. W metodach wizji komputerowej 
do estymacji parametrów wykorzystuje się metody: 


e kodingów [Bes74, CJ83], 

e maksimum pseudowiarogodności [Bes86], 

e najmniejszych kwadratów [Cha88, DE87], 

e korzystające ze szczególnych właściwości niektórych. rozkładów losowych [Cha88], 


e adaptacyjne [LD89]. 


Metoda kodingów opiera się na podziale dostępnych danych obrazowych na seg- 
menty, w których znajdują się takie piksle, że próbki informacji z nimi związane są mię- 
dzy sobą niezależne. Na każdym z takich segmentów dokonuje się estymacji poszukiwa- 
nych parametrów, na przykład metodą największej wiarogodności. Następnie dokonuje 
się uśrednienia odpowiednich wyestymowanych wartości ze wszystkich segmentów (kodin- 
gów). Przykłady wykorzystania tej metody można znaleźć w pracach [Bes74, CJ83]. 


Metoda maksimum pseudowiarogodności jest właściwie modyfikacją metody 
maksimum wiarogodności [Zie90|. Obliczenia są prowadzone tak samo jak w metodzie 
maksimum wiarogodności, ale wykorzystuje się próbki informacji z wszystkich piksli, tak 
jakby były między sobą niezależne Świadomie rezygnuje się z optymalności otrzymanego 
w ten sposób rozwiązania. W praktyce okazuje się, że mimo takiego uproszczenia, metoda 
prowadzi do całkiem dobrych rezultatów. Metoda jest bardzo często wykorzystywana w 
wielu zastosowaniach [Bes86, Cha88, Pie92a]. 
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Metoda najmniejszych kwadratów czasami jest używana samodzielnie [DE87], 
ale częściej jako metoda uzupełniająca w połączeniu z którąś z pozostałych. W szczegól- 
ności korzysta się z niej, jako metody pomocniczej dla metod z następnej grupy. 


Metody korzystające ze szczególnych właściwości niektórych rozkładów lo- 
sowych zazwyczaj wykorzystują własności rozkładu normalnego [Cha88]. Dużo zależy 
od pomysłowości samego autora, ale znalezione w ten sposób estymatory spełniają naj- 
częściej warunki optymalności. 


Metody adaptacyjne są zazwyczaj połączeniem etapu estymacji parametrów pola 
Markowa i etapu znajdowania mody tego rozkładu. W ogromnej większości przypadków 
wygląda to tak, że algorytm symulowanego wyżarzania jest przerywany co pewien czas w 
celu dokonania nowej estymacji parametrów pola, na przykład metodą maksimum pseu- 
dowiarogodności, po czym znowu wyżarzanie jest kontynuowane, ale przy wykorzystaniu 
już nowych wartości parametrów. W literaturze podano dowody, że takie postępowanie 
prowadzi do znalezienia globalnego minimum energii rozkładu Gibbsa [LD89]. 


Jeżeli znane są już wartości parametrów wybranego pola Markowa-Gibbsa, możliwym 
staje się estymowanie parametrów pozycyjnych jego rozkładu [por87]. Jednym z częściej 
poszukiwanych parametrów pozycyjnych jest realizacja pola Markowa-Gibbsa o najwięk- 
szym prawdopodobieństwie, zwana wartością modalną, lub po prostu modą rozkładu pola 
Markowa-Gibbsa. 


ALGORYTMY ESTYMACJI MODY POLA MARKOWA-GIBBSA 


W komputerowej analizie obrazów [GG84, Bes86, CJ83] moda wydaje się być jednym 
z najważniejszych parametrów rozkładu losowego Markowa-Gibbsa. Konstrukcja wielu 
algorytmów komputerowej analizy obrazów oparta jest na estymacji tego parametru. Ze 
względu na właściwość nieprzyczynowości omawianych modeli, estymacja mody wymaga 
różnych zabiegów. 

Większość znanych metod korzysta z technik relaksacyjnych, co oznacza, że przepro- 
wadzana jest symulacja pewnego łańcucha losowego, którego stanami są obrazy. Odrębną 
grupę stanowią metody opierające się na programowaniu dynamicznym 

Poniżej przedstawiono trzy znane z literatury algorytmy estymacji mody rozkładu 
losowego pola Markowa-Gibbsa. 


Symulowane wyżarzanie — stochastyczny algorytm estymacji mody rozkładu 
pola Markowa. Nazwa symulowane wyżarzanie wywodzi się z fizyki [KGV83]. Algo- 
rytm symulowanego wyżarzania podawany jest w literaturze jako przykład relaksacji sto- 
chastycznej |Jin90, GG84]. Metoda została opracowana dla rozkładu Gibbsa, ale dzięki 
twierdzeniu 5 można ją również wykorzystać do znajdowania mody rozkładu pól Mar- 
kowa. Podstawy matematyczne stanowią twierdzenia 2. 3. W pracy [GG84] metoda ta 
została nazwana impulsatorem Gibbsa i w tej wersji zostanie poniżej przedstawiona. 
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Na początku ustalany jest pewien sposób przeglądania, krok po kroku, wszystkich 
piksli należących do obrazu. W praktyce, często przyjmuje się kolejność naturalną, tzn. 
wierszami z lewa na prawo. Przejrzenie całego obrazu określa się nazwą iteracji. Następnie 
wybierana jest pewna dodatnią, malejąca funkcja temperatury w zależności od numeru 
iteracji. Dokonany wybór musi gwarantować optymalność, lub przynajmniej suboptymal- 
ność, otrzymanego później rozwiązania. Wartość parametru temperatury z funkcji gęstości 
rozkładu Gibbsa jest obniżana tylko przed rozpoczęciem nowej iteracji, a podczas samej 
iteracji pozostaje stała. W każdym kolejnym kroku algorytmu próbuje się dokonać zmiany 
jasności w aktualnym pikslu. Algorytm dla piksla w kroku k przedstawia się następująco: 


1. Losujemy liczbę z rozkładu warunkowego P(X, = z, | 1, j # i) obrazu 
x, według wzoru (2.24). W ten sposób otrzymujemy obraz £, mogący się 
różnić od poprzedniego tylko wartością w jednym pikslu i. 


2. Liczymy stosunek: 


= z! =E on Var 
q= P(X z;) = exp| T Tiet (2h) (2.25) 
P(X = zx) exp|-7 Leice V.(z;)] 
3. Jeśli stosunek q jest większy od 1, to obraz z, podstawiamy za z, i prze- 
chodzimy do kroku k + 1. 


4. Jeśli q jest mniejsze bądź równe 1, to losujemy liczbę z rozkładu równo- 
miernego na przedziale [0, 1]. Gdy q jest większe bądź równe wylosowanej 
liczbie, to obraz x, podstawiamy za x, i przechodzimy do kroku k +1, w 
przeciwnym przypadku przechodzimy do kroku k + 1 bez żadnych zmian. 


Zgodnie z twierdzeniami 2 i 3 opisane czynności muszą być powtórzone nieskończenie 
wiele razy dla danej temperatury. Twierdzenia 2 i 3 gwarantują, że postępując w przedsta- 
wiony sposób, zostanie znaleziona moda rozkładu Gibbsa. Ponieważ algorytm zaliczany 
jest do grupy algorytmów stochastycznych, więc dopuszcza lokalnie zarówno zmniejsze- 
nie jak i zwiększenie minimalizowanej funkcji energii. To powoduje, że wartość energii 
kolejno generowanych obrazów nie dąży do lokalnego minimum, a znajdowane jest mini- 
mum globalne [GG84, Bes86]. W praktyce, liczbę iteracji ogranicza się co najwyżej do 
kilku tysięcy [GG84] lub nawet kilkunastu [Cha88], chociaż globalna optymalność rozwią- 
zania w ostatnim przypadku może być zakwestionowana. 

Zaletą zaprezentowanej metody jest jej globalna optymalność, wadą czas dochodzenia 
do rozwiązania. Badania przeprowadzone przez niektórych autorów pokazały, że w porów- 
naniu z innymi, szybszymi metodami, minimum energii znalezione dzięki symulowanemu 
wyzarzaniu jest rzeczywiście globalne |[HMB91]. 


ICM — deterministyczny algorytm estymacji mody rozkładu pola Markowa. 
Metoda została zaproponowana przez Besaga w pracy [Bes86] w roku 1986. Jest typo- 
wym przykładem algorytmu relaksacji deterministycznej [Jin90]. W wolnym tłumaczeniu 
nazwę ICM można podać jako „iteracyjnie poszuktwane mody rozkładu warunkowego” 
W przeciwieństwie do symulowanego wyżarzania. najczęściej wynikiem jej działania jest 
lokalne maksimum funkcji rozkładu prawdopodobieństwa pola Markowa, ale za to czas 
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dochodzenia do rozwiązania jest stosunkowo krótki. Wielu autorów korzysta z tej metody 
jawnie, inni się do niej w swoich pracach odwołują [Pie92b]. Metoda została wprowaćzona 
przy okazji odszumiania obrazów, dlatego też w jej opisie pojawiają się takie pojęcia, jak 
obraz zaszumiony i obraz niezaszumiony. Poniżej przedstawiono opis algorytmu ICM .~ 


Założenia wstępne: 


e obraz niezaszumiony modelowany jest wielowymiarową zmienną losową X (X = 
(X1,...; Xm)), o której zakłada się, że ma rozkład pola Markowa-Gibbsa, 


e obraz zaszumiony modelowany jest wielowymiarową zmienną losową Y , przy czym 
Y = {Yis Yuh, 


e każda zmienna losowa Y; ma tę samą funkcję gęstości warunkowego rozkładu praw- 
dopodobieństwa f(y; | 1;), zależną tylko od z;. 


e zmienne Y; są warunkowo niezależne, 


Poszukiwana jest estymata obrazu niezaszumionego X. Oznaczmy przez P(X; = zx; | 
Tai) charakterystykę lokalną pola Markowa X w pikslu i, przy czym zg; oznacza wartość 
funkcji jasności we wszystkich pikslach należących do sąsiedztwa piksla i. Algorytm ICM 
polega na maksymalizacji w każdym pikslu prawdopodobieństwa P(X, = z; |y,1; j £ t)- 
Okazuje sie, ze dzięki przyjętym założeniom [Bes86]: 


P(X: =z; | yz; j #1) f(y | P(X = zi | ro). . (2.26) 

Algorytm: Niech k oznacza numer iteracji algorytmu, iteracja — przejrzenie wszyst- 

kich piksli obrazu, oraz niech x oznacza estymatę obrazu niezaszumionego z poprzedniej 
iteracji: 


1. Znajdź początkowy obraz £, np. poprzez maksymalizację f(y; | zi) wzglę- 
dem x; w każdym pikslu i. Wyzeruj wartość licznika iteracji (it = 0). 


dw 


. Rozpocznij nową iterację (it = it +1). Wyzeruj licznik piksli (pk = 0). 
3. Wybierz kolejny piksel (pk = pk + 1). Załóżmy, że jest to piksel i-ty. W 
pikslu tym znajdź taką wartość fi, która maksymalizuje: 

P(X, =a; | 9,2; J £1) x flu|z)P(X;=q: | Zm). (227) 


4. Jeśli aktualny piksel nie był ostatnim (pk # M, przy czym M - liczba 
piksli obrazu) skocz do 3. 


5. Jeśli zakończona tteracja nie była ostatnią założoną (it # itmar) skocz 
do 2. 


6. KONIEC. 


W przypadku algorytmu ICM najczęściej liczba trzydziestu iteracji jest wystarczająca 
aby znaleźć estymatę mody pola Markowa 
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Znajdowanie mody pola Markowa przy wykorzystaniu metod programowa- 
nia dynamicznego. Programowanie dynamiczne jest dość często używane w zadaniach 
optymalizacji. Jest to właściwie numeryczna metoda rozwiązywania zadań sterowania 
optymalnego, wynikająca bezpośrednio z zasady optymalności. W pracy [DE87] zapropo- 
nowano zastosowanie metody programowania dynamicznego do znajdowania mody roz- 
kładu pola Markowa, w celu dokonania segmentacji tego obrazu. W prezentowanym po- 
niżej algorytmie zakłada się, że szum ma rozkład normalny o wartości średniej zero i 
wariancji o? oraz, że jest to szum addytywny. Przyjmuje się, że dziedzina obrazu jest 
równa S = [0,...,N — 1] x [0,...,N — 1], N - liczba kolumn równa liczbie wierszy, 
M = N - N - liczba piksli obrazu. Ponadto zakłada się, że liczba klas segmentacji jest 
stała i równa K. Metoda maksymalizuje logarytm wiarogodności a posteriori postaci: 


h|P(X=z|Y=y)| x h|P(X)] +h|P(Y=y| X =2)] (2.28) 


względem z, przy czym: X - modelowane pole Markowa klas, y — obraz obserwowany. 
Oznaczmy: 


Sk = {(i,j) E€ S : Xj = k}, 

Q = {q1, q2,- -- qg} - zbiór jasności przyporządkowanych poszczególnym kla- 
som, 

C=) = {c : c jest kliką której piksle należą tylko do kolumny r lub tylko do 
kolumn r oraz r — 1}, 

SĘ = {(ir): Xz =k, LLi < N}. 


Jeśli przegląda się obraz po kolei, kolumna po kolumnie, to logarytm wiarogodności a 
posteriori wyraża się relacjami: 


M 2 
lb = -lnZ— (2a ) 
2s 1 
ko = ka- X Vej- DE DE zz (Ya -= 4)? 
cec ir k=1 qies! “7 
przy czym: r = 1,..., N. Oczywiście ly = ln|P(X = z.Y = y)]. Wartość ly nie ma 


wpływu na znajdowane optymalne rozwiązanie, a więc można przyjąć, że ly = 0 [DE87]. 
Algorytm programowania dynamicznego z przedstawionym wskaźnikiem jakości, po jed- 
nokrotnym przejrzeniu obrazu, powoduje znalezienie globalnego maksimum wiarogodności 
a posteriori modelowanego pola Markowa. Niestety dla N > 4 algorytm jest praktycznie 
nie do zastosowania ze względu na zbyt duży nakład obliczeń. Z tego powodu w [DE87] 
zaproponowano wersję suboptymalną, nazwaną algorytmem programowania dynamicznego 
na pasmie. Algorytm wygląda następująco: 


1. Wybierz liczbę wierszy D stanowiącą szerokość pasma, 2 < D < 4. 


de 


Podstaw I = 1, przy czym I - kolejny numer wiersza. 


3. Zastosuj algorytm programowania dynamicznego na pasmie złożonym z 
wierszy od I do I + D— 1. 
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x —— X O © piksle jasności 
© x Q e x piksel krawędzi 
x x x — | elementy krawędzi 


Rys. 2.9: Przykład realizacji binarnego. hierarchicznego pola Markowa. 


4. Jeśli I + D—1 = N zachowaj segmentację wierszy od I do I + D— 1, 
potem STOP. 


5. Zachowaj segmentację wiersza I 
6. Podstaw I = I + 1. 
7. Wróć do kroku 3. 


Eksperymenty przeprowadzone w pracy [DE87] pokazały że omówiony algorytm, dla 
przypadków, w których spełnione są wymienione założenia, prowadzi do całkiem dobrych 
rezultatów. 


2.2.5  Hierarchiczne pola Markowa 


Hierarchiczne pola Markowa zostały wprowadzone już w pracy [GG84]. Zasadnicza 
różnica w stosunku do modeli omawianych dotychczas polega na tym, że rozkładem pola 
Markowa modelowany jest nie tylko obraz, który można zobaczyć, tzw. górna warstwa, 
ale również niewidoczne pole cech, tzw. dolna warstwa, ściśle związane z obserwowanym 
obrazem. Najczęściej dolną warstwę stanowi pole krawędzi i dlatego na jego przykładzie 
zostaną omówione hierarchiczne modele Markowa. 


Górną warstwę stanowi pole Markowa modelujące obserwowaną funkcję jasności. 
Dla tego pola ustala się model sąsiedztwa. wybiera się postacie charakterystyk lokalnych 
oraz estymuje się wartości ich parametrów. Wymienione czynności są teia jak dla 
modeli niehierarchicznych (jednowarstwowych). 


Dolną warstwę stanowi pole Markowa krawędzi międzypikslowych określone w na- 
stępujący sposób: pomiędzy dwoma elementami w jednym wierszu pola górnego występuje 
pionowy element krawędzi, jeśli różnica jasności przyporządkowanych tym dwóm pikslom 
jest odpowiednio duża. Podobnie, pomiędzy dwoma elementami w jednej kolumnie znaj- 
duje się poziomy element krawędzi, jeśli różnica dwóch odpowiednich jasności jest duża. 
Jeśli pole losowe jasności jest obrazem o NV x N pikslach, to liczba pozycji pola krawędzi 
wynosi 2N(N — 1). Dla tak zdefiniowanego pola wybiera się następnie charakterystyki 
lokalne i oszacowuje ich parametry. ` 
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Na rys. 2.9 przedstawiono przykład realizacji hierarchicznego, binarnego pola Mar- 
kowa. Zamalowane okręgi oznaczają piksle, którym przyporządkowana jest wartość 1 
funkcji jasności, natomiast okręgi puste oznaczają piksle, w których funkcja jasności ma 
wartość 0. 

Zależność pomiędzy dwoma wymienionymi warstwami jest definiowana poprzez odpo- 
wiednie określenie funkcji energii rozkładu Gibbsa. Różni autorzy radzą sobie rozmaicie 
z tym problemem. W pracy [GG84] funkcję energii pola hierarchicznego określono jako 
sumę 


W, (x | 1) + Wa(t), (2.29) 


przy czym: l — pole krawędzi, a W;(z | l) - energia warunkowa. W ogólnym przypadku 
energia warunkowa jest energią pola Markowa-Gibbsa określoną w taki sposób, że war- 
tości energii poszczególnych klik są modyfikowane w zależności od dostępnej z zewnątrz 
informacji. W pracy [GG84] funkcja energii warunkowej W,(z | l) zdefiniowana została 
następująco: jeśli pomiędzy dwoma pikslami pola opisującego funkcję jasności (warstwy 
górnej), w polu dolnym nie występuje element krawędziowy, to energia kliki ma taką war- 
tości, jak została wybrana w trakcie modelowania warstwy górnej. Jeśli powyższy warunek 
nie jest spełniony, to energia takiej kliki z warstwy górnej przyjmuje wartość obojętną, 
np. jedną drugą wartości różnicy pomiędzy maksymalną i minimalną energią. 

Przyjęcie warunkowej postaci energii nie jest jedynym sposobem modelowania wzajem- 
nego wpływu warstw górnej i dolnej. W pracy [Cha88], we wzorze na całkowitą energię, 
zamiast składnika warunkowej energii W;(z | l), wstawiono zwykłą energię pola opisują- 
cego funkcję jasności wraz z dodatkowym składnikiem energii zwany energią zgodności. 
Energia zgodności odpowiada za efekt synfazowy. 

Jak pokazały wyniki eksperymentów zamieszczone w [GG84, Cha88] obydwa sposoby 
uwzględnienia wzajemnego wpływu warstw górnej i dolnej prowadzą do dobrych wyników. 

Hierarchiczne modele Markowa są bardziej skomplikowane niż pola jednowarstwowe. 
Jednak ze względu na skłonność modeli niehierarchicznych do przegładzania poprawia- 
nych obrazów, tzn. do tworzenia dużych obszarów jednolitej jasności [Bes86], najczęściej 
w praktycznych zastosowaniach z modeli hierarchicznych nie można zrezygnować. 


2.2.6 Ukryte pola Markowa 


W ukrytych polach Markowa-Gibbsa występują dwa rodzaje informacji 


1. pierwszym jest dostępna obserwacja, którą w przypadku komputerowej analizy ob- 
razów jest najczęściej funkcja jasności obrazu, 

2. drugim jest pewna cecha, przyporządkowywana poszczególnym pikslom analizowa- 
nego obrazu. 


Oczywiście z matematycznego punktu widzenia obydwie informacje mogą przybierać po- 
stać wektorów. 

Rozkład cechy modelowany jest polem Markowa. Realizacje tego pola nie są „obser- 
wowane', stąd też pole takie nazywa się polem ukrytym. O realizacjach pola ukrytego 
wiadomo tylko. że są w pewien sposób związane z dostępną obserwacją. Sposób wpływu 
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obserwacji na rozkład losowego pola ukrytego musi zostać określony w trakcie budowy 
modelu. 

Dla ustalenia uwagi oznaczmy modelowane pole ukryte, opisujące rozkład pewnej ce- 
chy, przez X , a pole dostępnej obserwacji przez Y. W ogólnym przypadku zmienna losowa 
Y nie musi mieć rozkładu pola Markowa-Gibbsa. W praktyce zakłada się, że zmienna lo- 
sowa Y przyjmuje tylko jedną realizację, tzn. rozważa się jedynie zdarzenie Y = y. Na 
wstępie budowy modelu ukrytego pola Markowa-Gibbsa należy wybrać system sąsiedztwa 
oraz energie poszczególnych klik. Następnie trzeba określić sposób wpływu obserwacji y 
na rozkład ukrytego pola X. Istnieją dwie zasadnicze możliwości [Car92]: 


1. kryterium MAP - maksimum prawdopodobieństwa a posteriori, tzn. poszukuje się 
takiej realizacji £ pola X, która maksymalizuje rozkład a posteriori, czyli 


= agma FA =a |Y =y): (2.30) 


2. kryterium MPM — wartości modalne brzegowych rozkładów a posteriori, tzn. po- 
szukuje się realizacji f; takich, że: 


#; = argmax P(X; =r: |Y =y). (2.31) 


Kryterium MAP jest wybierane znacznie częściej, dlatego na jego przykładzie zostanie 
omówiona ta część procesu budowy ukrytego pola Markowa, która dotyczy uwzględnienia 
wpływu obserwacji y na rozkład pola X. 

Z twierdzenia Bayesa oraz faktu, że P(Y = y) jest stałe, wynika, że maksymalizacja 
z równania (2.30) jest równoważna z maksymalizacją łącznego rozkładu prawdopodobień- 
stwa P(X = z,Y =y), ponieważ: 


P(X=z|Y=y) x P(Y =y|X=z)P(X=x) = P(X =z,Y =y). (2.32) 


Rozkład P(Y = y | X = z) zwany jest również modelem obserwacji [Car92]. Z rów- 
nania (2.32) wynika, że jeśli model obserwacji jest rozkładem Gibbsa, to łączny rozkład 
prawdopodobieństwa P(X = z,Y = y) też jest rozkładem Gibbsa. Zanim zostaną omó- 
wione dalsze szczegóły, wprowadźmy najpierw kilka pojęć pomocniczych. 


e Energią ukrytego pola Markowa nazywamy sumę wszystkich energii klik tego pola. 
ale bez uwzględnienia wpływu obserwacji, tzn. pola o rozkładzie prawdopodobień- 
stwa P(X = z). 


e Całkowitą energią ukrytego pola Markowa określa się sumę energii wszystkich klik 
tego pola, z uwzględnieniem wpływu obserwacji. tzn. pola o rozkładzie P(X = z | 
Y =y): 


e Energią lokalną ukrytego pola Markowa w pewnym pikslu nazywamy sumę energii 
wszystkich klik, do których należy ten piksel. ale bez uwzględnienia wpływu obser- 
wacji. 


e Całkowitą energią lokalną ukrytego pola Markowa w pewnym pikslu określa się sumę 
energii wszystkich klik, do których należy ten piksel, z uwzględnieniem wpływu 
obserwacji. 
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Innymi słowy przymiotnik całkowita informuje, że dane pojęcie odnosi się do rozkładu 
ukrytego pola Markowa z uwzględnionym wpływem obserwacji. Na zasadzie analogii 
można wprowadzić pojęcie całkowitej charakterystyki lokalnej ukrytego pola Markowa, 
która jest warunkowym rozkładem prawdopodobieństwa cechy związanej z pojedynczym 
pikslem pod warunkiem cech przyporządkowanych pikslom sąsiednim oraz obserwacji do- 
stępnej dla danego piksla i wszystkich piksli sąsiednich. 

Powróćmy do uwzględnienia wpływu obserwacji y na rozkład pola X. W przypadku 
kryterium MAP, oraz gdy model obserwacji jest rozkładem Gibbsa, uwzględnienie wpływu 
obserwacji wymaga podania wyrażenia opisującego całkowitą energię ukrytego pola Mar- 
kowa X. Podobnie jak w przypadku pól hierarchicznych tak samo dla modeli ukrytych 
istnieją dwa sposoby uwzględnienia wpływu obserwacji: 


* za pomocą energii zgodności dodawanej do energii ukrytego pola Markowa, oraz 
e za pomocą warunkowej energii pola ukrytego X. 


Zazwyczaj wykorzystanie ukrytych pól Markowa polega na poszukiwaniu mędy roz- 
kładu tego pola z uwzględnieniem wpływu obserwacji, tzn. na minimalizacji całkowitej 
energii ukrytego pola Markowa. 

Wykorzystanie modeli ukrytych wiąże się najczęściej ze znacznie większym nakładem 
obliczeniowym niż w przypadku pól jawnych jednowarstwowych. Identyfikacja modelu 
wymaga, poza estymacją parametrów charakterystyk lokalnych pola ukrytego, również 
estymacji parametrów modelu obserwacji. Zazwyczaj algorytmy wykorzystujące ukryte 
pola Markowa, równolegle z poszukiwaniem mody np. rozkładu a posteriori, dokonują ite-- 
racyjnej estymacji wszystkich parametrów, tzn. parametrów całkowitych charakterystyk 
lokalnych [Vei91, ABP92, Pie92a, Pie92b]. 

W publikacjach zajmujących się wykorzystaniem pól Markowa w komputerowej ana- 
lizie obrazów często trudno jest rozróżnić, którego rodzaju modelu dany artykuł dotyczy: 
jednowarstwowego, hierarchicznego czy ukrytego. Wielu autorów, korzystających w swo- 
ich algorytmach z modeli pól Markowa, nie używa nazwy ukryte pola Markowa, chociaż 
je stosuje. Praktycznie wszystkie algorytmy detekcji różnych cech w obrazach, bądź seg- 
mentacji, korzystające z pól Markowa faktycznie korzystają z pól ukrytych [BL90, LB90, 
HB90a. HB90b, ZC90]. Przykładem braku spójności w nazewnictwie może być algorytm 
ICM. wprowadzony w [Bes86] i omówiony w niniejszym rozdziale. W przedstawionej wer- 
sji algorytm właściwie dotyczy pól ukrytych, a w całym artykule [Bes86] nawet się o tym 
nie wspomina. 

Z matematycznego punktu widzenia hierarchiczne pola Markowa różnią się tym od pól 
ukrytych. że w przypadku tych pierwszych dwa źródła informacji opisywane są zmiennymi 
losowymi o rozkładzie pola Markowa-Gibbsa i poszukuje się „optymalnych” realizacji 
tych zmiennych jednocześnie. W przypadku pól ukrytych tylko jedno źródło informacji 
modelowane jest zmienną losową o rozkładzie pola Markowa-Gibbsa i tylko „optymalna” 
realizacja tego pola jest poszukiwana 


Rozdział 3 


Ogólna metoda budowy modeli 
statystycznych opierających się na 
polach Markowa 


Rozdział poświęcony jest metodzie budowy modeli statystycznych będących polami Mar- 
kowa, a przeznaczonych do rozwiązywania problemów wizji komputerowej. Proponowana 
metoda jest uporządkowanym zbiorem pytań, na które trzeba udzielić odpowiedzi podczas 
modelowania jakiegoś problemu komputerowej analizy obrazów. Metoda nie rozstrzyga 
kwestii do czego pola Markowa mogą być wykorzystane. Jeżeli tylko wiadomo co ma być 
opisane matematycznie, co jest informacją wejściową oraz jakie są ograniczenia, to metoda 
ta wydaje się być niezastąpiona, szczególnie gdy badaczowi brakuje intuicji oraz głębszej 
znajomości teorii pól Markowa. 
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3.1 Metoda budowy modeli opartych na polach Mar- 
kowa 


W każdej sytuacji, w której przystępuje się do budowy jakiegoś modelu matematycznego 
trzeba sobie dokładnie zdawać sprawę z tego co chcemy zamodelować. W przypadku pól 
losowych na wstępie koniecznie należy rozstrzygnąć dwie kwestie: 


e Jak wygląda dziedzina budowanego pola ? 
e Co jest zbiorem stanów tego pola ? 


W obydwu przypadkach potencjalnie istnieje wiele możliwości. W algorytmach wizji kom- 
puterowej dziedzina pola losowego najczęściej, aczkolwiek nie zawsze, pokrywa się z dzie- 
dziną obrazu rozumianego jako funkcja jasności [Cha88, GG84]. Z matematycznego punktu 
widzenia jest to zazwyczaj pewien podzbiór kraty [DE87]. Ze względu na to, że obrazy 
komputerowe są ściśle związane ze sprzętem, dzięki któremu powstają, wygodniej jest 
przedstawić dziedzinę pola losowego w postaci tablicy o ustalonych rozmiarach, będących 
prawie zawsze potęgą liczby 2. Jeżeli modelowaniu poddawana jest sekwencja czasowa 
obrazów, wówczas dziedzina takiego pola będzie reprezentowana przez trójwymiarową 
tablicę, gdzie trzeci wymiar odpowiada zmiennej czasu. 

Pytanie o zbiór stanów pola losowego można sformułować również w następujący spo- 
sób: 


- Rozkład jakiej lokalnej cechy jest przedmiotem modelowania za pomocą pola 
Markowa? 


Jeżeli np. polem Markowa opisuje się funkcję jasności, to zbiór stanów takiego pola jest 
tożsamy ze zbiorem wartości tej funkcji jasności [Cha88]. Kiedy indziej polem Markowa 
może być opisane pole etykiet przyporządkowanych poszczególnym pikslom. Wtedy w 
najprostszym przypadku zbiór stanów takiego pola losowego jest zbiorem dwuelemento- 
wym. Można sobie również wyobrazić sytuacje, w których każdemu pikslowi pola losowego 
przyporządkowana jest wielowymiarowa zmienna losowa, co w konsekwencji powoduje, że 
elementy zbioru stanów pola losowego pochodzą z przestrzeni o odpowiednim wymiarze. 
Taki właśnie przypadek jest opisany w rozdziale 5. 

Po udzieleniu odpowiedzi na powyższe dwa zasadnicze pytania należy z kolei rozstrzy- 
gnąć kwestie dodatkowe. Przede wszystkim konieczne jest wybranie typu pola Markowa. W 
rozdziale 2.2 omówiono trzy możliwości: pola jednowarstwowe jawne, pola hierarchiczne 
oraz pola ukryte. Właściwy wybór związany jest z rodzajem dostępnej informacji wej- 
ściowej (np. może być to sekwencja obrazów z gradacją szarości) oraz jej wpływem na 
modelowaną cechę. Często przy rozstrzyganiu tej kwestii przydaje się intuicja badacza. Z 
każdym typem modelu związane są pewne grupy zastosowań, ale o tym będzie mowa w 
rozdziale 3.2. 

Wybranie modelu hierarchicznego albo ukrytego zwiększa liczbę pytań, na które trzeba 
udzielić odpowiedzi w czasie procesu modelowania. 

Jeżeli zdecydowano się na model hierarchiczny, koniecznym staje się wybranie warstwy 
lub warstw dolnych oraz udzielenie odpowiedzi jaką rolę mają one spełniać. W ogrom- 
nej większości znanych z literatury zastosowań modeli hierarchicznych warstwą dolną jest 
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pole krawędzi międzypikslowych [GG84, Cha88, KS93]. Warstwa krawędzi „zabezpiecza” 
poszukiwaną, tzn. optymalną w pewnym sensie realizację pola Markowa przed przegła- 
dzeniem [Bes86]. 


Wybranie modelu ukrytego narzuca konieczność określenia informacji zewnętrznej 
zwanej czasami obserwacją [Wrz93| oraz opisania jej wpływu na rozkład modelowanej 
cechy, czyli na rozkład ukrytego pola Markowa. 


Kolejną kwestią jest wybór rzędu pola. Ma on bardzo duży wpływ na złożoność da- 
nego pola Markowa, a tym samym na jego użyteczność w praktycznych zastosowaniach. 
Jak pokazano to w rozdziale 2.2 wraz ze wzrostem rzędu rośnie bardzo szybko liczba klik 
należących do systemu sąsiedztwa. W niektórych zastosowaniach [Cha88] wybrano naj- 
mniejszy z możliwych rzędów. tzn. jeden, jednak w ogromnej większości dominuje rząd 
dwa. Czasami, aby uprościć obliczenia. wyklucza się niektóre kliki przyjmując a priori, 
że ich energia jest równa zero {LB90}. Jeżeli zdecydowano się na model wielowarstwowy, 
wówczas należy wybrać rząd dla każdej z warstw, który nie koniecznie musi być jednakowy 
dla każdej z nich. 

Następnym problemem jest wybór postaci energu pola co, jak zostało pokazane w roz- 
dziale 2.2, jest równoznaczne z określeniem postaci lokalnych warunkowych rozkładów 
prawdopodobieństwa — charakterystyk lokalnych. Sposób postępowania bardzo istotnie 
zależy ed rodzaju wybranego modelu. Najłatwiej jest dla modeli jednowarstwowych jaw- 
nych, chociaż i tutaj istnieje kilka możliwości. Stosując podejście typowe dla pól Markowa 
zakłada się, że charakterystyka lokalna przyjmuje postać jednego ze znanych rozkładów 
prawdopodobieństwa [CJ83]. Wybierając podejście typowe dla rozkładu Gibbsa określa 
się energię klik, co determinuje rozkład charakterystyk lokalnych i oczywiście energię cał- 
kowitą [DE87]. W przypadku modeli hierarchicznych podobnych wyborów trzeba dokonać 
dla każdej z warstw. Dodatkowo jednak należy określić wpływ jednej warstwy na drugą, 
patrz rozdział 2.2. Dla modeli ukrytych koniecznym staje się uwzględnienie wpływu obser- 
wacji. Częstym rozwiązaniem, podobnie jak dla modeli hierarchicznych, jest dodatkowy 
składnik energii. 


Udzielenie odpowiedzi na powyższe pytania kończy w zasadzie koncepcyjna część bu- 
dowy modelu matematycznego opartego na polach Markowa. W większości zastosowań, 
należy następnie dopasować model do posiadanych danych, czyli przeprowadzić identy- 
fikację modelu. Czasami przeprowadzenie identyfikacji jest jedynym przeznaczeniem mo- 
delu [CJ83]. Niekiedy wartości parametrów wybiera się a priori, np. gdv model jest uży- 
wany do generacji tekstur, lub gdy parametry odpowiadają tylko za spójność bądź nie- 
spójność przestrzenną [LB90]. W ogólnym przypadku identyfikacja jest procesem trudnym 
i często wymaga pokonania wielu dodatkowych zagadnień teoretycznych [KS93, Cha88]. 


Dotychczas najczęstszym zastosowaniem wielowymiarowej zmiennej losowej o rozkła- 
dzie pola Markowa, oczywiście poza identyfikacją tekstur. jest estymacja mody tego roz- 
kładu. Poszukiwanie mody rozkładu losowego opisanego polem Markowa wymaga doko- 
nania ostatniego wyboru w prezentowanej metodzie. tzn. zdecydowania się na algorytm 
estymacji tej mody. Ważniejsze możliwości omówiono w rozdziale 2.2 


Po tak szczegółowym omówieniu proponowanej metody, poniżej została ona przedsta- 
wiona w formie zwartej. 
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METODA BUDOWY MODELI OPARTYCH NA POLACH MARKOWA: 


1. Wybierz dziedzinę pola Markowa. 

2. Określ zbiór jego stanów. 

3. Zdecyduj się na typ pola korzystając z następujących możliwości: 
(a) jednowarstwowe jawne, 
(b) hierarchiczne (wielowarstwowe), 
(c) ukryte, 

4. Jeśli wybrano model hierarchiczny, określ dolne warstwy. 

5. Jeśli wybrano model ukryty, określ co jest obserwacją. 


6. Wybierz rząd pola, wszystkich jego warstw w przypadku modeli hierar- 
chicznych. 


7. Okresl wyrazenie energtt pola losowego, tzn. wybierz energie wszystkich 
klik - podejście Gibbsa, lub postacie charakterystyk lokalnych — podejście 
Markowa. 


8. W przypadku modeli hierarchicznych określ wzajemny wpływ poszczegól- 
nych warstw oraz wybierz rozkład pola, którego moda będzie poszukiwana, 
np. rozkład a posteriori. 


9. W przypadku modeli ukrytych określ sposób wpływu obserwacji na pole 
ukryte, np. kryterium MAP lub MPM, co jest równoznaczne z określeniem 
całkowitej energii pola ukrytego. 


10. Jeśli cel, dla którego budowany jest model tego wymaga, przeprowadź iden- 
tyfikację pola, tzn. estymację jego parametrów. 


11. Wybierz algorytm estymacji mody. 


3.2 Zastosowania modeli opartych na polach Mar- 
kowa 

Załóżmy, że jest już zbudowany pewien model statystyczny. Pojawia się pytanie, jak można 

z takiego modelu skorzystać? Pvtanie to jest całkiem nietrywialne i w zasadzie wykracza 


poza zakres komputerowej analizy obrazów. Z teorii modelowania wiadomo, że modele 
matematyczne można podzielić na trzy następujące grupy [Kur]: 


e fizykalne. 
e konceptualne. 
e „czarnej skrzynki . 


Najogólniejszymi są oczywiście fizykalne, przy budowie których wykorzystuje się zna- 
jomość uniwersalnych praw fizycznych i relacji szczegółowych (np. związków fizycznych 
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czy konstytutywnych) obowiązujących dla danego zjawiska czy sygnału. Jeśli uda się zbu- 
dować taki model i nie będzie on zbyt skomplikowany, to jego wykorzystanie może być 
bardzo szerokie. Oczywiście oczekuje się, że model taki zachowuje swoją poprawność nie 
tylko dla danych na podstawie których był identyfikowany. Dzięki tej właściwości można 
na przykład przewidywać, tzn. predykować przyszłe stany modelowanego sygnału. 

Modele konceptualne są bardziej uproszczone. Opierają się, w pewnym stopniu, na 
znajomości praw fizycznych rządzących modelowanym zjawiskiem, ale przy ich budowie 
dokonuje się wielu uproszczeń. Obszar ich poprawności jest najczęściej niewiele większy 
od obszaru danych, na podstawie których przeprowadzono identyfikację. 

Najmniej ogólnymi są modele „czarnej skrzynki”. Z góry zakłada się ich postać, a 
dopiero na podstawie posiadanych danych stara się je dopasować do modelowanego zja- 
wiska. Często takie modele są poprawne tylko dla danych, na podstawie których zostały 
zbudowane 

Do której z wymienionych grup można zaliczyć modele pól Markowa? Są one modelami 
statystycznymi wykorzystującymi pojęcie zmiennej losowej, a za tym przecież kryje się nie- 
wiedza o mechanizmie modelowanego zjawiska. Jednak mimo to, nie należy ich zaliczać do 
modeli typu „czarnej skrzynki”, gdyż w przeciwieństwie do pierwszych modeli statystycz- 
nych używanych w komputerowej analizie obrazów, w polach Markowa zawarta jest pewna 
wiedza o właściwościach sygnałów, jakimi są obrazy. Podstawowym założeniem, na któ- 
rym oparta jest koncepcja pól Markowa, jest występowanie zależności pomiędzy próbkami 
informacji przyporządkowanymi sąsiednimi pikslom obrazu. Z tego powodu pola Markowa 
należy raczej zaliczyć do grupy modeli konceptualnych, co w dużym stopniu determinuje 
możliwości korzystania z nich. 

Dzięki swoim właściwościom pola Markowa są używane bardzo często do restauracji 
obrazów [GG84, Cha88]. 

W niektórych zastosowaniach jest wykorzystywana zdolność pól Markowa do „przegła- 
dzania” modelowanej funkcji [KS93, CSC+93, CSC*, CSN*94]. Ma to miejsce na przykład 
w obrazach prążkowych powstałych jako efekt metod plamkowych stosowanych w analizie 
odkształceń. W przypadku tych obrazów pożądanym jest uciąglenie linii obserwowanych 
w zarejestrowanych obrazach, tak aby łatwiej można było zlokalizować maksima funk- 
cji jasności. Przegładzanie modelowanej powierzchni polega na skłonności do tworzenia 
na nieskończonych obrazach nieskończenie wielkich obszarów o jednolitej jasności |Bes86]. 
Gdy w konkretnym zastosowaniu właściwość ta jest niepożądana, buduje się hierarchiczne 
modele pól Markowa z warstwą krawędzi, która ma uniemożliwić przegładzenie poprawia- 
nego obrazu [GG84, JW91]. Czasami też, w takim wypadku korzysta się z ukrytych pól 
Markowa 

Innymi ciekawymi zastosowaniami pól Markowa są: generacja oraz identyfikacja tek- 
stur [CJS3], znajdowanie potoku optycznego [HB90a, HB90b}. detekcja krawędzi [ZC90]. 
detekcja masek obiektów ruchomych [LB90, BL90]. 
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Rozdział 4 


Detekcja zmian w obrazach — 
badania porównawcze 


Metody detekcji masek obiektów ruchomych proponowane w następnych rozdziałach. wy- 
magają wcześniejszego znalezienia masek zmian w obrazach. Dla modeli opartych na po- 
lach Markowa omawianych w rozdziałach 5 oraz 10 maski zmian zachodzących pomiędzy 
kolejnymi obrazami sekwencji czasowej stanowią podstawę do znalezienia masek porusza- 
jącego się obiektu. Z tego powodu w niniejszym rozdziale zajęto się najpopularniejszymi, 
znanymi z literatury algorytmami wykrywania zmian czasowych zachodzących między ko- 
lejnymi obrazami sekwencji. Wybrane metody przetestowano przy użyciu kilku sekwencji 
obrazów przedstawiających poruszające się samochody. Wyniki przeprowadzonych ekspe- 
rymentów oraz wnioski z nich wypływające zebrano na końcu tego rozdziału. 
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Rys i.l: Sekwencja A: ramki telewizyjne o numerach 1, 6, 11, 16, 21 oraz 26. Sekwencja 
otrzy:::ana za pomocą zapisu filmowego na taśmie magnetycznej. Poruszajacy się obiekt jest 
prze: ictnie jaśniejszy od tła. 


4.1 Wybór metod detekcji zmian w obrazie 


W wybranym w niniejszej rozprawie podejściu do detekcji ruchu, a przedstawionym w 
rozdziale 2.1.3, maski zmian w obrazie odgrywają bardzo ważną rolę. Na ich podstawie 
znajdowane są maski poruszającego się obiektu. W rozdziale 2.1.2 omówiono kilka znanych 
z literatury metod detekcji zmian w obrazach. Każdy z autorów przedstawiał swoją metodę 
jako niezawodną. ze szczególnym uwzględnieniem wybranych przez siebie przykładów 
Nasuwa się jednak pytanie. który z algorytmów i dla jakich sekwencji obrazów prowadzi do 
najlepszych rezultatów. Ponieważ brak jest w dostępnej literaturze takiego porównania 
dlatego zdecydowano się na przeprowadzenie odpowiednich badań eksperymentaluych 
Porównano ze sobą 


1. Test modułu róznicy jasności przyporządkowanych pikslowi w dwóch kolejnych ob 
razach sekwencji (MR). Jest to najprostsze podejście do problemu, odpowiadając: 
wartości modułu pochodnej względem czasu w przypadku sygnałów ciągłych. Me- 
toda MR jako jedyna nie uwzględnia wpływu jasności piksli sąsiednich 


2. Test Hsu-Nagela- Rekersa (HNR) [HNR84] w dwóch wersjach 
(a) korzystającej z liniowego modelu funkcji jasności (HNRlin). 
(b) korzystającej z kwadratowej aproksymacji funkcji jasności (HNRkw) 


3. Test Nieniewskiego- Pathaka (NP) [NP91, NP90] wykorzystujący transformację Wal 


sha funkcji jasności 
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4. Test Skifstada-Jaina (SJ) [SJ89], który został utworzony na podstawie modelu za- 
cienienia — wg jego autorów jedno z rozwiązań o zmniejszonej wrażliwości na zmiany 
oświetlenia. 


4.2 Testowe sekwencje obrazów 


Testowe sekwencje obrazów A, B, C przedstawiono odpowiednio na rys. 4.1, 4.12, 4.18. 
Wszystkie zostały utworzone w następujący sposób. Najpierw poruszające samochody za- 
rejestrowano na taśmie video standardu Hi8 mm przy użyciu kamery umieszczonej na sta- 
tywie. Następnie poszczególne klatki telewizyjne zdygitalizowano wykorzystując do tego 
celu standardowy przetwornik. Otrzymano sekwencje obrazów o rozdzielczości 512 x 512 
piksli i 256 poziomach szarości. Ze względu na to, że w przypadku europejskiego stan- 
dardu telewizyjnego zapisywanych jest 25 obrazów na sekundę, do komputerowej analizy 
wybrano tylko niektóre kadry; co piąty w przypadku sekwencji A oraz co czwarty dla 
sekwencji B i C. Następnie w wyselekcjonowanych obrazach ustalono okno o rozmiarach 
256 x 256 piksli. Położenie okna było stałe dla całej sekwencji. Do analizy ruchu prze- 
znaczono jedynie sekwencję takich spreparowanych klatek 256 x 256 piksli. Wszystkie 
sekwencje składają się z sześciu obrazów, co stanowi wystarczającą długość dla oceny 
jakości testowanych metod. Obrazy sekwencji A, B, C umieszczono na rys. 4.1, 4.12, 4.18 
w następującej kolejności: 

1523 

456: 

Z punktu widzenia komputerowej analizy obrazów sekwencje różnią się między sobą 
'relacją pomiędzy jasnością tła oraz poruszającego się obiektu. Sekwencja A przedstawia 
obiekt, który w zasadzie jest jaśniejszy od tła. Ponieważ obiektem tym jest samochód, to w 
rzeczywistości jasność poruszającego się obiektu jest zarówno jaśniejsza jak i ciemniejsza 
od tła. np. okna samochodu lub jego cień. 

W przypadku sekwencji B występuje relacja odwrotna, tzn. jasność obiektu jest prze- 
ważnie ciemniejsza od tła. Również i tutaj można zaobserwować cień. 

Sekwencja C jest podobna do A. z tym. że różnica jasności pomiędzy biaivmi częściami 
samochodu a tłem jest o wiele większa 


4.3 Wyniki przeprowadzonych eksperymentów 


Przy porównywaniu ze sobą obrazów otrzymywanych przy użyciu różnych metod trudno 
jest posługiwać się obiektywnym kryterium oceny ich jakości. Zazwyczaj najważniejszą 
rolę odgrywa subiektywny odbiór obserwatora. Gdy system wizyjny zastosowany jest do 
konkretnego zadania jak np. paletyzacja detali. to najlepszym testem metody, również tej 
niskiego poziomu, jest niezawodność całego systemu wyrażona np. przy pomocy prawdo- 
podobieństwa popełnienia błędu. W przypadku oceny jakości masek zmian można sfor- 
mułować dwa kryteria: 


e spójność znalezionej maski, 


http://rcin.org.pl 


66 DETEKCJA ZMIAN W OBRAZACH - BADANIA... 


Rys. 4.2: Maski zmian w obrazie dla sekwencji A z rys. 4.1, otrzymane metodą MR, prog=10. 
Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 


w których zmiany nie wykryto. 


J 


Rys. 4.3: Maski zmian w obrazie dla sekwencji A 2 rys. 4.1, otrzymane metodą MR, próg=40 
Kolorem czarnym zaznaczono piksle. w których została wykryta zmiana, a kolorem białym piksle. 


w których zmiany nie wykryto. 
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Rys. 4.4: Maski zmian w obrazie dla sekwencji A z rys. 4.1, otrzymane metodą HNRlin, prog=50. 


Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 


w których zmiany nie wykryto. 


Rys. 4.5 


Maski zmian w obrazie dla sekwencji A z rys. 4.1, otrzymane metodą HNRlin, 


próg=200. Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem 
białym piksle, w których zmiany nie wykryto. 
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Rys. 4.6: Maski zmian w obrazie dla sekwencji A z rys. 4.1, otrzymane metodą HNRkw, próg=50. 
Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 
w których zmiany nie wykryto. 


Rys. 4.7: Maski zmian w obrazie dla sekwencji A z rys. 4.1, otrzymane metodą HNRkw, 
próg=400. Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem 
białym piksle, w których zmiany nie wykryto 
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Rys. 4.8: Maski zmian w obrazie dla sekwencji A z rys. 4.1, otrzymane metodą NP, próg=25. 
Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 
w których zmiany nie wykryto. 
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Rys. 4.9: Maski zmian w obrazie dla sekwencji A z rys. 4.1, otrzymane metodą NP, próg=100 

Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 
. 

w których zmiany nie wykryto. 
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Rys. 4.10: Maski zmian w obrazie dla sekwencji A z rys. 4.1, otrzymane metodą SJ, próg=0.001. 


Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 
w których zmiany nie wykryto. 


Ore 


Rys. 4.11: Maski zmian w obrazie dla sekwencji A z rys. 4.1. otrzymane metodą SJ. próg=0.01 
Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana. a kolorem białym piksle 
w których zmiany nie wykryto 
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e brak błędnie zaetykietowanych piksli, tzn. tych którym przyporządkowano etykietę 
ruch zamiast tło lub na odwrót — błędnie zaetykietowanych piksli obiektu. 


Na takiej podstawie zostaną porównane wybrane metody. 

Każda z sekwencji A, B, C została przebadana w podobny sposób. Okno testowe 
dla metod HNR w wersji liniowej jak i kwadratowej oraz dla testu SJ miało rozmiar 
3 x 3 piksle, natomiast dla metody NP — 4 x 4 piksle. W przypadku algorytmów HNRlin, 
HNRkw, SJ, NP przy wyniku testu etykietę przypisywano tylko jednemu pikslowi okna, 
tzn. środkowemu dla HNRlin, HNRkw, SJ oraz jednemu z wewnętrznych piksli okna 
testowego dla metody NP. 

Wyniki przeprowadzonych eksperymentów przedstawiono w postaci sekwencji znale- 
zionych masek zmian w obrazie. Sekwencji 6 obrazów z gradacją szarości odpowiada 5 
masek zmian w obrazie. Maski te na wszystkich rysunkach zostały umieszczone w nastę- 
pującej kolejności: 

(1,2) {2,3} 
(3,4) {4,5} {5.6} 


przy czym np. {1,2} oznacza maske zmian czasowych zachodzacych pomiedzy pierwszym 
i drugim obrazem analizowanej sekwencji. 

Badania wszystkich wybranych metod zostały przeprowadzone przy różnych warto- 
ściach progu. Na rysunkach przedstawiono tylko najważniejsze rezultaty. Szczegółowo 
wyniki eksperymentów zostaną omówione na przykładzie sekwencji A. 

Na rys. 4.2-4.3 pokazano rezultaty zastosowania najprostszej i najszybszej metody, 
tzn. testu modułu różnicy jasności. Maski z rys. 4.2 to efekt małej wartości progu, w 
przeciwieństwie do tych z rys. 4.3 — gdzie próg był czterokrotnie większy. W obydwu 
przypadkach znalezione maski zmian w obrazie są dalekie od tego co widzi oko ludzkie. 
Zarówno maski z rys. 4.2 jak i 4.3 są niespójne, przy czym o wiele mniejsze braki daje 
się zauważyć dla masek wykrytych przy małym progu. Inaczej wygląda problem z drugim 
sformułowanym kryterium oceny jakości obrazów, tzn. z liczbą piksli tła źle zaetykieto- 
wanych. Piksle takie występują zarówno w obrazach z rys. 4.2 jak i 4.3, z tym, że wraz ze 
wzrostem progu liczba tych piksli wyraźnie maleje. 

Na rys. 4.4. 4.5 przedstawiono maski zmian w obrazie otrzymane dzięki testowi HNR 
z liniowym, a na rys. 4.6, 4.7 z kwadratowym modelem funkcji jasności. Wnioski, które 
można na ich podstawie wyciągnąć są bardzo podobne jak w przypadku MR, tzn. wraz 
ze wzrostem progu. maski coraz bardziej tracą spójność, ale również maleje liczba źle 
zaetykietowanych piksli tła. Ogólne wrażenie jest jednak nie najlepsze. Gdyby jako poziom 
odniesienia przyjąć tę samą liczbę piksli tła, którym błędnie przypisano etykietę ruch, to 
maski najbardziej spójne otrzymywane są dzięki testowi HNRkw, w następnej kolejności 
jest HNRlin. a na końcu. czego należało się spodziewać, test modułu różnicy jasności. 
Zaobserwowane różnice nie są jednak bardzo istotne, a koszt obliczeniowy metod HNR 
jest o wiele większy 

Na rys. 4.8, 4.9 pokazano wyniki zastosowania testu NP. Porównując te maski z 
poprzednimi można zauważyć ich mniejszą spójność, ale jednocześnie metoda wykrywa 
mniejszą liczbę piksli tła, którym przypisano ruch. 

Rezultaty zastosowania metody Skifstada-Jaina pokazano na rys. 4.10, 4.11. W [SJ89] 
napisano, że metoda SJ wykrywa zmiany fizycznej struktury przedstawianych w obrazie 
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Rys. 4.12: Sekwencja B: ramki telewizyjne o numerach 1, 5, 9, 13, 17 oraz 21. Sekwencja 
otrzymana za pomocą zapisu filmowego na taśmie magnetycznej. Poruszający się obiekt jest 
przeciętnie ciemniejszy od tła. 


powierzchni. W przypadku analizowanej sekwencji wydawać by się mogło, że cień samo- 
chodu nie powinien zmieniać fizycznej struktury powierzchni obrazu jezdni, czyli ruch 
cienia nie powinien być wykrywany. Okazuje się jednak, że tak nie jest. Cień za porusza- 
jącym się samochodem został wykryty zarówno przy małej jak i dużej wartości progu. 

Mała wartość progu prowadzi jednocześnie do bardzo dużej liczby fałszywie zaetykie- 
towanych piksli tła, por. rys. 4.10. Jeżeli jednak treść sekwencji testowej byłaby inna, tzn. 
byłaby widoczna tylko jezdnia i jadące samochody. to przy małych wartościach progu 
metoda wydaje się dawać najlepsze maski zmian w obrazie. 

Podobne serie eksperymentów przeprowadzono dla sekwencji B oraz C. Na rys. 4.13 

4.17 pokazano przykładowe maski zmian w obrazie otrzymane dla sekwencji B, a na 

rys. 4.19-4.23 dla sekwencji C. Charakter otrzymanych masek jest w zasadzie taki sam 
jak dla sekwencji A. Zarówno dla poruszających się obiektów. które są ciemniejsze jak i 
wyraźnie jaśniejsze od tła, znalezione maski nie są spójne, a liczba źle zaetykietowanych 
piksli tła zależy od przyjętej wartości progu 

Przyglądając się uważnie przedstawionym maskom zmian w obrazie. szczególnie tym. 
które zostały znalezione dzięki testom HNR, można zauważyć. że liczba piksli jezdni. któ- 
rym przypisano błędnie etykietę ruch nie jest jednakowa dla całej sekwencji, por. rys. 4.4 
4.14, 4.15, 4.20. Liczba tych piksli rośnie, gdy obiekt jest bliżej kamery. Najprawdopodob- 
niej przyczyną takiego zjawiska są układy automatyki zastosowanej kamery telewizyjnej 
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Rys. 4.13: Maski zmian w obrazie dla sekwencji B z rys. 4.12, otrzymane metodą MR, próg=20. 
Kołorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 
w których zmiany nie wykryto. 


J 


Rys. 4.14: Maski zmian w obrazie dla sekwencji B z rys. 4.12, otrzymane metodą HNRIin, 
próg=100. Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem 


białym piksle, w których zmiany nie wykryto 
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Rys. 4.15: Maski zmian w obrazie dla sekwencji B z rys. 4.12, otrzymane metodą HNRkw. 
próg=200. Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem 
białym piksle, w których zmiany nie wykryto. 


Rys. 4.16: Maski zmian w obrazie dla sekwencji B z rys. 4.12. otrzymane metodą NP, próg=50 
Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 


w których zmiany nie wykryto. 
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Rys. 4.17: Maski zmian w obrazie dla sekwencji B z rys. 4.12, otrzymane metodą SJ, próg=0.01. 
Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 
w których zmiany nie wykryto. 


Rys. 4.18: Sekwencja C: ramki telewizyjne o numerach 1, 5, 9, 13, 17 oraz 21. Sekwencja 
otrzymana za pomocą zapisu filmowego na taśmie magnetycznej. Poruszający się obiekt jest 
przeciętnie znacznie jaśniejszy od tła 
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Rys. 4.19: Maski zmian w obrazie dla sekwencji C z rys. 4.18, otrzymane metodą MR, próg=20. 
Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 
w których zmiany nie wykryto. 


Rys. 4.20: Maski zmian w obrazie dla sekwencji C z rys. 4.18. otrzymane metodą HNRlin, 
próg=50. Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem 
białym piksle, w których zmiany nie wykryto. 
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Rys. 4.21: Maski zmian w obrazie dla sekwencji C z rys. 4.18, otrzymane metoda HNRkw, 
próg=100. Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem 


białym piksle, w których zmiany nie wykryto. 


s 8 4 


Rys. 4.22: Maski zmian w obrazie dla sekwencji C z rys. 4.18, otrzymane metodą NP, prog=25. 
Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 


w których zmiany nie wykryto. 
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Rys. 4.23: Maski zmian w obrazie dla sekwencji C z rys. 4.18, otrzymane metodą SJ, próg=0.02. 
Kolorem czarnym zaznaczono piksle, w których została wykryta zmiana, a kolorem białym piksle, 
w których zmiany nie wykryto. 


4.4 Wnioski 


Najważniejsze wnioski wynikające z przeprowadzonych eksperymentów są następujące: 


1. 


Wszystkie metody (łącznie z modułem różnicy jasności) prowadzą do bardzo po- 
dobnych rezultatów. 


. Żadna z metod nie znajduje idealnej lub zbliżonej do idealnej maski zmian w ob- 


razie, tzn. znalezione maski są niespójne oraz występują źle zaetykietowane piksle. 
Obydwa kryteria jakości wykluczają się wzajemnie, tzn. poszukiwania pełniejszej 
maski, prowadzą do wykrywania jako ruchomych piksli tła. 


„ Najbardziej spójne maski można znaleźć przy pomocy metod HNRkw, SJ oraz HNR- 


lin. 


. Najmniejszą liczbę piksli tła zaetykietowanych jako ruch. przy porównywalnej spój- 


ności znalezionych masek zmian w obrazie, daje metoda NP 


. Zadna z metod nie jest w stanie odseparować poruszającego się obiektu od cienia 


przy czym zgodnie z oczekiwaniami, najlepsze rezultatv można otrzymać dzięki 
testowi SJ. 


. Niezależnie od wzajemnej relacji pomiędzy jasnościami tła i obiektu każda z metod 


daje podobne efekty. 


DETEKCJA ZMIAN W OBRAZACH - BADANIA... 79 


Przeprowadzone eksperymenty nie pozwoliły jednoznacznie określić, która z testowa- 
nych metod jest najlepsza. Zaskakująco dobre rezultaty otrzymuje się dzięki metodzie 
modułu różnicy, która jest najprostsza i jednocześnie bardzo szybka. W zależności od 
treści sekwencji, a szczególnie od treści tła, niektóre metody są nieznacznie lepsze od 
pozostałych. 
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Rozdział 5 


Zastosowanie pól Markowa w 
detekcji i śledzeniu ruchu 


Rozdział jest poświęcony budowie modeli matematycznych opierających się na czasowo- 
-przestrzennych polach losowych oraz wykorzystaniu tych modeli w detekcji i śledzeniu 
ruchu. Jako przykład pól losowych wybrano pola Markowa-Gibbsa. Zadanie postawione 
przed systemem komputerowej analizy obrazów polega na detekcji i śledzeniu ruchu obiek- 
tów pojawiających się w polu widzenia kamery, przedstawionych za pomocą sekwencji ob- 
razów z gradacją szarości, tzn. na znalezieniu sekwencji masek poruszającego się obiektu, 
odpowiadających poszczególnym obrazom sekwencji wejściowej. Z kilku znanych podejść 
do tak postawionego problemu wybrano to, które nie wymaga wyznaczania potoku optycz- 
nego, a opiera się jedynie na sekwencji wejściowej oraz maskach zmian w obrazie, znale- 
zionych za pomocą jednej ze znanych metod. W [BL90, LB90] Lalande i Bouthemy za- 
stosowali ukryte pole Markowa-Gibbsa do detekcji masek obiektu ruchomego, w którym 
wykorzystali dwuwymiarowy wektor obserwacji, tzn. maskę zmian w obrazie oraz różnicę 
jasności przyporządkowanych pojedynczemu pikslowi w dwóch kolejnych obrazach. W roz- 
dziale 5.2 przedstawiono, zgodnie z wymogami metody z rozdziału 3, model opracowany 
przez Lalande’a i Bouthemy’iego, który nazwano od pierwszych liter ich nazwisk mode- 
lem LB. W podrozdziale 5.3 zaproponowano do detekcji masek obiektu ruchomego nowy 
model będący czasowo-przestrzennym ukrytym polem Markowa-Gibbsa, który jest lepszy 
od modelu LB, bo dopuszcza wszystkie możliwości zaetykietowania pojedynczego piksla 
w dwóch kolejnych obrazach sekwencji. Nowy model korzysta z takiego samego, jak mo- 
del LB, dwuwymiarowego wektora obserwacji. W podrozdziale 5.4 opisano implementacje 
algorytmów estymowania mody modelu LB oraz modelu nowego, tzn. relaksację deter- 
ministyczną oraz symulowane wyżarzanie. W podrozdziale 5.4.2 zaproponowano bardzo 
efektywną modyfikację algorytmu relaksacji deterministycznej, pozwalającą na skrócenie 
czasu estymowania mody rozkładu pola Markowa-Gibbsa nawet do dwudziestu razy. 


pn 
N 
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Rys. 5.1: Następstwo obrazów. 


5.1 Pola Markowa jako modele matematyczne wy- 
korzystywane do detekcji masek obiektów ru- 
chomych 


Załóżmy, że mamy dostępną sekwencję obrazów przedstawiającą poruszający się obiekt. 
Zadanie polega na dokonaniu segmentacji każdego z nich, tak aby oddzielić od siebie 
ruchomy obiekt i statyczne tło. Można tego dokonać np. poprzez przyporządkowanie każ- 
demu pikslowi jednej z dwóch etykiet, tzn. etykiety „ruch” albo etykiety „tło”. Ze względu 
na istnienie szumu, pożądanym wydaje się zastosowanie jakiegoś modelu statystycznego. 
Pola Markowa, z powodu uwzględniania zależności pomiędzy wartościami jasności sąsied- 
nich piksli, wydają się znakomicie nadawać do tego celu. 

Dla uproszczenia zapisu w dalszej części rozprawy zostaną wprowadzone następujące 
oznaczenia: 
fxl1.7) © wartość funkcji jasności k-tego obrazu sekwencji w pikslu (7, 7). 


L - zbiór etykiet, przyporządkowywanych pojedynczemu pikslowi. 
E, pole losowe etykiet dla k-tego obrazu. 
ek realizacja losowego pola etykiet Ex, 


Ex(i.j)- rozkład losowy etykiet w pikslu (7,7) w obrazie k. 

€x(1.7) — etykieta przyporządkowana pikslowi (i, j) w obrazie k, 

ox(i.j) - różnica jasności oy(t. j) = fegi(t, j) — felt, j), 

o(1.]) - etykieta maski zmian zachodzących pomiędzy obrazami k. k + 1 w pikslu (t,j) 


Zagadnienie konstrukcji algorytmu korzystającego z pola Markowa, przeznaczonego do 
detekcji i śledzenia ruchu, zostanie szczegółowo omówione wg kolejnych punktów metody 
zaprezentowanej w rozdziale 3. 


e Pierwszą kwestią, którą należy rozstrzygnąć w trakcie budowy pola Markowa jest 
jego dziedzina. Na rys. 5.1 schematycznie przedstawiono sekwencję obrazów. Oś t 


/| 
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jest osią czasu, kolejne obrazy indeksowane są liczbami naturalnymi. Osie i oraz 7 
określają współrzędne poszczególnych piksli należących do dziedziny obrazu. Przed- 
stawiona przestrzeń jest przestrzenią dyskretną. Położenie poszczególnych piksli 
może być określone za pomocą uporządkowanej trójki liczb naturalnych (i, j,k). 
Oznaczmy dziedzinę pojedynczego obrazu przez S. Ponieważ wszystkie obrazy se- 
kwencji mają jednakową dziedzinę, dziedzinę całej sekwencji można oznaczyć przez 
SK C Z*, przy czym: K — długość sekwencji. Dziedzina zmiennej losowej o rozkła- 
dzie pola Markowa nie musi być koniecznie pewnym podzbiorem Zł. Możliwe jest 
wybranie podzbioru przestrzeni Z? pokrywającego się z dziedziną pojedynczego ob- 
razu. W takim przypadku jasności we wszystkich pikslach o tych samych współrzęd- 
nych przestrzennych i różnych współrzędnych czasowych można modelować używa- 
jąc rozkładów wielowymiarowych zmiennych losowych. Wymiar zmiennej może być 
równy co najwyżej długości analizowanej sekwencji. W ogólnym przypadku istnieje 
wiele możliwości wybrania dziedziny. Jedna z nich jest sytuacja, w której dziedzinę 
stanowi S*. Takie rozwiązanie, aczkolwiek koncepcyjnie poprawne. w praktyce czę- 
sto nie nadaje się do zastosowania 7 nastepujacych powodów 


— bardzo długie sekwencje zuzywalviy wręcz niewyobrażalną ilość pamięci kom- 
putera, 


— niemożliwa staje się implementacja dostarczająca wyników on-line. 


Sytuacją przeciwną do opisanej powyżej. ograniczającą rozmiar dziedziny do nie- 
zbędnego minimum, jest każdorazowe modelowanie polem Markowa tylko dwóch 
kolejnych obrazów sekwencji. W ten sposób znikają wymienione problemy, ale ma- 
leje prawdopodobieństwo znalezienia rozwiązania optymalnego. 


e O wiele mniej kłopotów jest z dokonaniem wyboru zbioru stanów L pola Mar- 
kowa. W rozważanej sytuacji zbiór L jest zbiorem dwuelementowym. Najczęściej 
przyjmuje się, że L = fa,b), przy czym: etykieta a oznacza. że piksel należy do 
poruszającego się obiektu. a etykieta b ~ piksel zaliczony został do statycznego tła. 
Jeżeli pole Markowa zostanie skonstruowane tak. że w każdym pikslu należącym do 
jego dziedziny mamy do czynienia z rozkładami n-wymiarowymi (n - liczba mode- 
lowanych obrazów), to wówczas zbiorem stanów pola losowego będzie przestrzeń L", 
a możliwymi realizacjami w pikslu będą n-elementowe ciągi etvkiet ze zbioru L. 


e Kolejnym krokiem jest wybranie typu pola Markowa. Z trzech możliwości wy- 
mienionych w rozdziale 2.2 właściwie tylko modele ukryte nadają się do opisania 
rozważanej sytuacji. Zasadniczym powodem jest to, że zmienną losową o rozkładzie 
pola Markowa opisujemy czasowo-przestrzenny rozkład etykiet, którego realizacje 
nie są bezpośrednio dostępne. a informację wejściową stanowią jedynie wartości 
funkcji jasności 


e Wybór modelu ukrytego determinuje konieczność określenia obserwacji wpływają- 
cej na rozkład ukrytego pola. Mając na uwadze detekcję ruchu, jako obserwację na- 
leżałoby wybrać pewną lokalną miarę zachodzących zmian, jak np. różnicę wartości 
jasności w danym pikslu w kolejnych obrazach. Możliwe jest również wykorzystanie 
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wektorowej obserwacji, tzn. np. wspomnianej różnicy wartości jasności w pikslu oraz 
maski zmian w obrazie. 


Następnym krokiem jest określenie rzędu pola Markowa, czyli wybranie rodzajów 
klik, dla których funkcja energii może przyjmować wartości różne od zera. W więk- 
szości przypadków przyjmowany jest rząd równy 2, który gwarantuje uwzględnienie 
wpływu wszystkich ośmiu najbliżej położonych sąsiadów danego piksla. 


Kolejnym etapem jest wybór wyrażenia analitycznego dla energii pola losowego, 
a tym samym postaci charakterystyk lokalnych, co jest równoznaczne z wybraniem 
funkcji określających energię wszystkich dopuszczalnych dla danego rzędu klik. Za- 
stosowanie modelu ukrytego dodatkowo implikuje konieczność określenia kryte- 
rium wpływu wybranej obserwacji na rozkład pola, czyli podania całkowitej 
energii pola ukrytego. Jeżeli dla konkretnego pola Markowa mamy do czynienia 
w każdym pikslu z n-wymiarowymi rozkładami prawdopodobieństwa. to wówczas 
pojawia się konieczność określenia zależności pomiędzy rozkładami brzegowymi w 
pikslach o tych samych współrzędnych przestrzennych i różnych czasowych. Można 
to uczynić np. poprzez wybranie klik czasowych oraz postaci energii czasowej. 


Wybranie postaci energii pola kończy etap budowy modelu matematycznego, jed- 
nak energia pola Markowa określona jest z dokładnością do pewnego wektora para- 
metrów ©. W takiej sytuacji pojawia się konieczność identyfikacji tego wektora, 
czyli estymacji współrzędnych wektora ©, dla których zbudowany model najlepiej, 
względem pewnego kryterium, opisuje konkretną, analizowaną sekwencję obrazów. 
Właśnie ta czynność wydaje się być jedną z najtrudniejszych. Wartości niektórych 
parametrów można estymować na podstawie pewnego rozumowania heurystycz- 
nego. Niestety prawie zawsze identyfikacja parametrów wymaga znajomości wyniku 
detekcji ruchu. do której przecież chcemy ich użyć. Problem w pewnym stopniu 
rozwiązuje podejście iteracyjne. tzn. przeplatana estymacja parametrów i poszu- 
kiwanie minimum energii z poprawianymi za każdym razem estymatami parame- 
trów [BPM93, ABP92, Pie92a, Pie92b]. Takie podejście do problemu jest zazwyczaj 
bardzo czasochłonne. a przez to wykorzystanie jego do detekcji ruchu jest bardzo 
utrudnione 


Ostatnią kwestią pozostającą do rozstrzygnięcia jest wybór algorytmu poszuki- 
wania minimum energii, co jest równoznaczne z estymowaniem mody zmiennej 
losowej o rozkładzie pola Markowa. Kilka możliwości zostało przedstawionych w 
rozdziale 2.2 oraz w [Car92]. Ze względu na czas obliczeń godnymi uwagi wydają się 
wszelkie algorytmy nadające się do implementacji równoległych. np. szeregowo-rów- 
noległe implementacje oparte na kodingach opisanych przez Besaga [CJ83, Bes74] 
lub sposób podobny do przedstawionego w [HMBS91]. Szczególnie godnym pole- 
cenia jest algorytm relaksacji deterministycznej, np. podobny do wprowadzonego 
w [Bes86]. 
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5.2 Model Lalande’a-Bouthemy’iego (LB) 


Model matematyczny opracowany przez Bouthemy 'iego i Lalande'a został opublikowany 
wraz z przykładowymi efektami jego użycia w |BL90, LB90]. Model ten zostanie obecnie 
przedstawiony z wykorzystaniem metody konstrukcji modelu matematycznego korzysta- 
jącego z pól Markowa przedstawionej w rozdziale 3'. 


Dziedzina pola losowego 


W modelu LB pole losowe zostało określone na przestrzeni 2D, tzn. dziedzina pola po- 
krywa się z dziedziną pojedynczego obrazu. Lalande i Bouthemy zamodelowali polem 
Markowa rozkład etykiet odpowiadających każdym dwóm obrazom sekwencji. W efekcie 
wartościami pola losowego są dwuwymiarowe zmienne losowe, opisujące rozkład etykiet 
przyporządkowywanych pojedynczemu pikslowi w dwóch kolejnych obrazach sekwencji. 
Dokonane wybory spowodowały, że algorytm detekcji maski obiektu ruchomego składa 
się z wielu kroków. W każdym kroku poszukiwana jest optymalna realizacja pola etykiet 
odpowiadających jedynie dwóm kolejnym obrazom analizowanej sekwencji. Ze względu na 
wybór najmniejszej z możliwych dziedzin, detekcja maski obiektu ruchomego w każdym 
kroku nie może odbywać się bez uwzględnienia wyników z kroku poprzedniego. Z tego 
powodu Lalande i Bouthemy zdecydowali się na dwuetapowe poszukiwanie maski obiektu 
ruchomego dla każdego obrazu k sekwencji wejściowej. Pierwszy z tych etapów można 
nazwać predykcją a drugi korekcją. I tak, w kroku k poszukiwana jest najbardziej praw- 
dopodobna realizacja pola etykiet jednocześnie dla obrazów o numerach k i k+ 1, tzn. 
dokonywana jest korekcja maski k-tej i predykcja maski k + 1-szej. Znalezione etykiety dla 
k-tego obrazu (efekt korekcji) są już realizacją ostateczną, natomiast etykiety dla obrazu 
o numerze k + 1 (efekt predykcji) będą użyte do inicjacji korekcji maski k + 1-szej w 
k + 1-szym kroku algorytmu. 


Zbiór stanów, typ oraz rząd pola Markowa 


Dokonany wybór dziedziny pola spowodował. że zbiór jego stanów jest zbiorem cztero- 
elementowym L? = £(a,a), (a,b), (b, a). (b,b)). przy czym a - etykieta przyporządkowana 
pikslowi należącemu do obiektu ruchomego. b - etykieta piksla tła. Elementami tego zbioru 
są uporządkowane pary etykiet a, b, przypisywanych pojedynczemu pikslowi w dwóch ko- 
lejnych chwilach czasowych. W konsekwencji łączny rozkład prawdopodobieństwa etvkiet 
w pikslu zawsze będzie pewnym rozkładem czteropunktowym. 

Z powodów opisanych w rozdziale 5.1 model LB jest ukrytym polem Markowa opisu- 
jącym rozkład etvkiet a,b. 

Zgodnie z definicją kliki z rozdziału 2 para piksli z dwóch różnych obrazów sekwencji, 
gdy pole Markowa jest określone na przestrzeni 2D a wartościami tego pola są dwuwy- 
miarowe zmienne losowe. nie jest kliką. Jednak w celu skrócenia nazwa używanych pojęć, 
w dalszej części rozprawy będzie stosowane rozszerzone pojęcie kliki, tzn. zbiór piksli 
należące do dwóch kolejnych obrazów sekwencji też będzie określany mianem kliki. Klika 
taka będzie nazywana kliką czasową. Dodatkowo w dalszej części rozprawy pojawi się 


IW porównaniu z symbolami wprowadzonymi w pracach Lalande'a i Bouthemy'iego część symboli 
zmieniła swoje znaczenie 
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jeszcze pojęcie kliki przestrzennej. Pod tą nazwą będzie rozumiany zbiór złożony z piksli 
jednego obrazu. Dla przykładu w modelu LB, gdy polem Markowa będzie opisany rozkład 
etykiet przyporzadkowywanych obrazom o numerach k i k +1, to w takim przypadku bę- 
dziemy mieli do czynienia z klikami przestrzennymi obrazu k, z klikami przestrzennymi 
obrazu k + 1 oraz z klikami czasowymi. 

Przyjęto, że rząd pola jest równy 2, ale wykluczono wszystkie kliki jedno, trzy oraz 
czteropikslowe, poprzez przyjęcie dla nich zerowej wartości energii. Pozostawiono jedynie 
kliki dwupikslowe. Ponieważ w każdym pikslu mamy do czynienia z uporządkowaną parą 
etykiet, to dla modelu sąsiedztwa drugiego rzędu energia kliki złożonej z etykiety e(i, j) 
i jednej z etykiet ex4:(i + 1,7 + 1) może przyjmować w ogólnym przypadku wartość 
niezerową. Jednak Lalande Bouthemy założyli, że tylko energia kliki {ex(i, j), ex+1(i, 3) 
może być niezerowa. Innymi słowy przyjęto, że rozkład prawdopodobieństwa etykiety 
ex(i, j) zależy tylko od etykiet ey(i+1, +1) oraz od etykiet ex 41(i, j) i ex_1(i, j), przy czym 
zależność od etykiety ek_;(i, j) jest uwzględniana podczas predykcji k-tej maski obiektu, 
a wpływ etykiety es+ı(i, j) jest brany pod uwagę w trakcie korekcji tej maski. Dzięki 
takim założeniom, w przypadku modelu LB, zależność pomiędzy brzegowymi rozkładami 
prawdopodobieństwa w pikslach o tych samych współrzędnych przestrzennych i różnych 
czasowych jest określona za pomocą energii przypisywanej klikom czasowym. 


Obserwacja 


Lalande i Bouthemy wybrali dla swojego modelu obserwację będącą dwuwymiarowym 
wektorem, którego współrzędnymi są: 


e maska zmian w obrazie 0; = (0k(i,7)), 
e różnica jasności og = fox(i,j)). 


Chociaż autorzy tego wyraźnie nie napisali, taki dobór obserwacji dla modelu wyko- 
rzystywanego do detekcji ruchu ma głębokie uzasadnienie koncepcyjne. Gdyby obserwacją 
była sama różnica funkcji jasności, to etykiety ruchu mogłyby, być przypisane izolowanym 
pikslom. w których wspomniana różnica osiągnęła wystarczająco dużą wartość, np. z po- 
wodu zwykłego szumu elektronicznego. Natomiast maska zmian otrzymana za pomocą 
takich metod jak metoda Skifstada [SJ89], czy testy zaprezentowane w [HNR84], przed- 
stawia zmiany lokalne jakie zaszły pomiędzy dwoma kolejnymi obrazami, ale z uwzględ- 
nieniem wpływu jasności piksli sąsiednich. Taka obserwacja w pewnym stopniu zmniejsza 
prawdopodobieństwo błędnego przyporządkowania etykiet ruchu. 

Przyjęto, że wpływ wybranej obserwacji na rozkład ukrytego pola etykiet jest opisany 
za pomocą kryterium maksymalnego prawdopodobieństwa rozkładu a posteriori (MAP) 
oraz założono, że rozkład a posteriori pola etykiet (ex, ex41} jest rozkładem Gibbsa. 


Postać energii 
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W przypadku modelu LB całkowita energia pola Markowa? jest sumą czterech składników: 
W; = W,, +W,, + W, + W,, (5.1) 


przy czym: Wy — całkowita energia pola etykiet dla obrazów k i k+ 1, W,, — energia 
przestrzenna pola etykiet e, W,, — energia przestrzenna pola etykiet e,+,, W: — energia 
czasowa pola etykiet {ex, ex,;), W. — energia zgodności pola (ex, e441} z obserwacją ok. 
Lalande i Bouthemy założyli, że wpływ obserwacji o, na rozkład pola ukrytego opisany 
jest za pomocą składnika energii W,, a obserwacji O+, za pomocą warunkowej postaci 
energii czasowej W,, w której 0, spełnia rolę warunku dla tej energii. 
Z postaci równania (5.1) wynika postać całkowitej energii lokalnej w pikslu (ż, 7): 


Uj; ZU, + Uijos + Uije + Uijzs (5.2) 


przy czym: U;;,, — lokalna energia przestrzenna piksla (i,j) k-tej maski, U;;,, — lokalna 
energia przestrzenna piksla (i, j) k + 1-szej maski, U;,, - lokalna energia czasowa realizacji 
(ex(i,3),ek+1(i,J)), Uijz — energia zgodności realizacji (ek(i, J),ex+1(i,))) z obserwacją 
orli. j). 


Każda z energii przestrzennych Uj;,,, Uijs, jest sumą ośmiu energii dwupikslowych 
kuk przestrzennych, do których należy piksel (i, j). Lalande i Bouthemy w swoim mo- 
delu przyjęli jednakową postać energii wszystkich czterech rodzajów dwupikslowych klik 
przestrzennych, a mianowicie: 


Be { B. gdy etykiety dla dwóch piksli są rózne, (5.3) 
ae —B, gdy etykiety dla dwóch piksli są identyczne, j 
przy czym: cąs oznacza przestrzenną klikę dwupikslowa, V.,, oznacza energię przestrzennej 
kliki dwupikslowej, 3, — stała większa od zera. Jak wiadomo, im energia kliki ma wartość 
bardziej ujemną, tym bardziej taka realizacja jest prawdopodobna (preferowana) w opty- 
malnej realizacji całego pola. Im energia kliki przyjmuje wartość bardziej dodatnią, tym 
bardziej realizacja taka ma mniejsze szanse na wvstąpienie Wyrazenie opisujące każdą z 

energii U;,, można przedstawić w postaci 


Ge ey (5.4) 
przy czym: V,,,(i,j) to energia przestrzennej kliki dwupikslowej, do której należy piksel 
(i, j). Niech O, oznacza tę część wektora parametrów ©. która odpowiada tylko za energię 
przestrzenną. Ze względu na istnienie w przyjętym modelu czterech rodzajów dwupikslo- 
wych klik przestrzennych. wektor parametrów ©, przyjmuje postać: 

1 56 
Oy = (82,05 Beal (5.5) 
2 Aby zachować zgodność z nazwami wprowadzonymi w rozdziale 2 powinno być napisane całkowita 


energia ukrytego pola Markowa, jednak w celu skrócenia nazw przymiotnik ukryte będzie niekiedy pomi- 
jany w dalszej części rozprawy, gdyż tylko ukryte pola Markowa będą dalej rozważane 


88 ZASTOSOWANIE PÓL MARKOWA W DETEKCJI I ŚLEDZENIU... 


Energia czasowa U,xlex(i, j), ek41(i, j) | Ok(i,7)| ma postać energii warunkowej. przy 
czym warunkiem jest etykieta 5,(ż, j) maski zmian w obrazie. Każdemu pikslowi dziedziny 
pola odpowiada dwuetykietowa klika czasowa. Energia takiej kliki czasowej przyjmuje 
wartości według tabelki: 


Uzelek(1, J). ee41 (2,7) | Gk(2,7)| = 


przy czym: / oraz 3} - stałe większe od zera. 6, = 0 oznacza, że zmian w pikslu (:, J) 
pomiędzy obrazami k oraz k + 1 nie wykryto. a 0, = l odpowiada wykryciu takich zmian 
Oznaczając przez ©, tę część wektora parametrów, która opisuje energię czasową, wektor 
©, przyjmuje postać: 


O, = |=: 2e, Bi, Bi. Bi, -Bi Bes —B]". (5.7) 


Do określenia energii zgodności U,,. została zdefiniowana pomocnicza funkcja o postaci”: 


mo gdy (ex(1.3),€ks1(1.J)) = (b, b) 
wlek(i, J),ex1(1,J)]= 4 m gdy (ex(1,7).€xs1(1,7)) = (a, b) lub (b, a) (5.8) 
m gdy (Ek(i,J),€x11(1,J)) = (a,a). 


Założono, że rozkład prawdopodobieństwa zgodności realizacji (ek(t, J),€k+1(1,7)) z ob- 
serwacją ox(i,J) jest rozkładem normalnym z wartością średnią mp, mı albo mą oraz 
wariancją o?. W takim przypadku lokalna energia zgodności opisana jest równaniem: 


i 1 l 4 
Uj: = zzz {li j) — Uler(i j), €xs1(1,3)])”. (5.9) 


Oznaczmy przez ©. tę część wektora ©. która opisuje energię zgodności. Wektor ©. 
przyjmuje postać: 
©, = [mo. mi. 1m. 0°]. (5.10) 


Estymacja parametrów modelu 
Wektor parametrów © ma postać: 
= |[©..0,.0.]. (5.11) 


Łącznie model LB jest określony z dokładnością do 16 parametrów. Skrótowy opis identy- 
fikacji modelu LB zamieszczony w pracach [BL90, LB90] sugeruje, że Lalande i Bouthemy 


3W stosunku do oryginalnych oznaczeń Lalande'a i Bouthemy 'iego symbole m; i mą zostały ze soba 
zamienione 
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dobrali wartości większości parametrów swojego modelu w sposób heurystyczny. Dotyczy 
to parametrów energii przestrzennej i czasowej oraz parametru my energii zgodności. I tak 
przyjęli: 8, = 10, 6, = 100, Ø; = 1000, m, = 0. Konsekwencją dokonanych wyborów jest 
ograniczenie do trzech liczby parametrów odpowiadających za dopasowanie modelu LB do 
analizowanej sekwencji obrazów. O estymacji parametru a* Lalande i Bouthemy napisali 
tylko, że należy ją przeprowadzić raz na początku przetwarzania sekwencji obrazów. W 
przypadku parametrów m; i mę zaproponowali skorzystanie z metod lokalnej estymacji, 
bądź zasugerowali oszacowanie wartości tych parametrów tylko raz. na początku analizy 
sekwencji wejściowej. 


W [BL90. LB90] nie napisano na temat doboru wartości tych parametrów nic więcej. 
nawet nie podano wartości parametrów my. m». a”, które posłużyły do znalezienia prezen- 
towanych tam sekwencji masek. Dobór odpowiednich wartości wymienionych parametrów 
wcale nie jest zagadnieniem oczywistym. gdyż wymaga wiedzy a priori o analizowanej 
sekwencji. Szerzej ten problem zostanie poruszony podczas omawiania wyników badań 
eksperymentalnych. 


Algorytm poszukiwania minimum energii pola Markowa 


Lalande i Bouthemy w swojej implementacji wykorzystali do tego celu algorytm relaksacji 
deterministycznej, który wymaga poprawnej inicjacji. Ze względu na skrótowy charakter 
prac [BL90. LB90] nie przedstawiono żadnych informacji ułatwiających implementację. 
Skorzystanie z modelu LB wymaga odtworzenia nieopisanych przez autorów szczegółów. 
Praca taka została wykonana, a jej rezultaty zamieszczono w rozdziale 5.4. 


5.3 Nowy model z dwuwymiarowym wektorem ob- 
serwacji 


Przedstawiony w rozdziale 5.2 model matematyczny. wydaje się bardzo dobrze nadawać 
do znajdowania masek obiektu ruchomego. Lalande i Bouthemv wybrali najmniejszą z 
możliwych dziedzin, ułatwiając w ten sposób implementacje działającą w trybie zbliżonym 
do on-line. Aby uwzględnić wpływ zarówno przeszłości jak i przyszłości na poszukiwane 
rozwiązanie. wprowadzono dwuetapowe poszukiwanie maski obiektu ruchomego dla k-tego 
obrazu. tzn. predykcję i korekcję. Można jednak zadać pytanie: 


Czy model Lalande a-Bouthemy ‘tego jest modelem optymalnym. w którym na 
mozna me poprawić? 


Po giębszej analizie daje się zauważyć pewne niedociągnięcia procesu modelowania. Za- 
stanawiającą jest bardzo duża wartość energii czasowej przypisana realizacji (a.b) odpo- 
wiadającej sytuacji (ruch, tło)‘, wykluczająca ją praktycznie w sposób deterministyczny. 
Skądinąd wiadomo, że algorytmy detekcji zmian w obrazie najlepiej wykrywają sytuacje 


*Podobnie jak w rozdziale 2 jeśli pojawia się w tekście określenie np. sytuacja (ruch. tło), to oznacza to 
tylko sytuację teoretyczną, tzn. informacja tego typu jest niedostępna w trakcie zastosowania opisywanego 
modelu do analizy ruchu przy wykorzystaniu rzeczywistych sekwencji obrazów. 
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przejściowe tzn. (tło, ruch) lub (ruch, tło), a to by sugerowało zmianę wartości energii 
czasowej realizacji (a,b | 6, = 1) na ujemną. 

Zastanówmy się jednak przez chwilę nad konsekwencjami wynikającymi z takiego przy- 
jęcia energii dla realizacji (a, b). Najpierw jednak załóżmy, że maska zmian 6, jest idealna. 
tzn. rozróżnione są w niej prawidłowo sytuacje (ruch, tło), (tło, ruch), (ruch, ruch) od sy- 
tuacji (tło, tło). W k-tym kroku algorytmu, tzn. kiedy przeprowadzana jest korekcja maski 
k-tej jednocześnie z predykcją maski k+1-szej, jeśli detekcja zmian w obrazach poprzedza- 
jąca detekcję masek obiektu ruchomego byłaby przeprowadzona bezbłędnie, to wtedy do 
maski obiektu odpowiadającej k-temu obrazowi powinny zostać zaliczone piksle, w których 
zmiany spowodowały sytuacje (ruch, tło) oraz (ruch. ruch), a do k + 1-szej maski obiektu, 
w których zmiany spowodowały sytuacje (ruch, ruch) oraz (tło, ruch). W rzeczywistości 
w czasie detekcji ruchu nie wiadomo, która z sytuacji: (ruch, tło), (tło, ruch) czy (ruch, 
ruch) spowodowała zmiany, więc w trakcie etykietowania mogą być popełniane błędy. 
Błędnie zaetykietowane piksle podczas predykcji powinny zostać „poprawione” podczas 
korekcji. Praktycznie deterministyczne wykluczenie realizacji (a,b) jest przyczyną błędów 
popełnianych podczas predykcji. Spróbujmy to wyjaśnić bardziej wyczerpująco. 

Jeśli na podstawie maski zmian 04 wiadomo, że w pikslu (2,7) zaszły zmiany, to pod- 
czas detekcji ruchu para etykiet (ex(i, J),ekq;(1,J)) powinna zostać wybrana z realizacji 
(a,b), (b,a), (a,a). Jednak realizacja (a, b) jest zabroniona ze względu na dużą wartość f%, 
więc pozostają tylko realizacje (b, a) oraz (a, a). Wybranie realizacji (b, a), gdy w rzeczy- 
wistości mamy do czynienia z sytuacją (ruch, tło), jest niewskazane, gdyż w ten sposób 
w czasie korekcji maski k-tej przypisywane byłyby etykiety b pikslom obiektu ruchomego. 
Ponieważ błędy popełniane byłyby w trakcie korekcji, to nie byłoby już ich kiedy po- 
prawić. Oznacza to, że pozostaje tylko realizacja (a,a), czyli pikslom należącym do tła 
w obrazie k + l-szym błędnie przypisywane są etykiety a, w konsekwencji czego maska 
k + 1 obiektu znaleziona w czasie predykcji jest co najmniej zgodna z maską zmian. Je- 
żeli w konkretnej sekwencji sytuacja (ruch, tło) jest liczna, to konsekwencją praktycznie 
deterministycznego wykluczenia realizacji (a, b) może być dość znaczne wydłużenie czasu 
obliczeń, gdyż fałszywe etykiety a przypisane w czasie predykcji muszą być następnie 
usunięte w trakcie korekcji. 

Co jest przyczyną takiego a nie innego przyjęcia energii klik czasowych przez Lalande’a 
i Bouthemy iego. Odpowiedź można znaleźć analizując postać funkcji (5.8). Autorzy two- 
rząc tę funkcję dokonali uproszczenia w etapie modelowania. łącząc ze sobą realizacje 
(a,b) i (b.a). Chociaż taki model jest prostszy. jednak w sposób niedokładny modeluje 
rzeczywistość. 

Przedstawiony tok rozumowania prowadzi do wniosku. że zmiana wyrażenia opisują- 
cego energię w modelu LB. tak abv rozróżnić realizacje (a.b) i (b,a), jest w pełni uza- 
sadniona. Z tego powodu w niniejszej rozprawie proponowany jest nowy model z 
dwuwymiarowym wektorem obserwacji. który charakteryzuje się taką właśnie cechą 

W proponowanym modelu większość założeń jest identyczna jak w modelu LB. Dla 
obydwu modeli identyczne są: dziedzina, zbiór stanów, typ. rząd, wyrażenie opisujące 
energię przestrzenną oraz obserwacja wpływająca na rozkład ukrytego pola losowego. 
Identyczne są również wartości przypisane parametrom /,. (3, oraz mo. Zmianie ulegają: 


1. wyrażenie opisujące energię zgodności, oraz 
Ja Ble 
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2. tablica określająca warunkową energię klik czasowych. 


Z tego powodu w niniejszym rozdziale nie zostanie powtórzony cały tok rozumowania 
wymagany w trakcie konstrukcji modelu korzystającego z pól Markowa, a omówione będą 
tylko te kroki, w których zaproponowano zmiany. 

Pierwsza zmiana dotyczy funkcji (5.8). Funkcja ta ma teraz postać: 


mo gdy (es(i, j), €u+1(i,3)) = (b,b) 
Mathen) m gy (afsjiaakij Ga) 632 
m, gdy (er(i, j), €k+1(i, 3)) = (a, a). 


Dawny parametr mą stał się teraz parametrem m3. Modyfikacja powoduje powiększenie 
wymiaru przestrzeni, na której określony jest wektor ©, z 4 do 5 tzn.: 


8. = |mo, m, mą, mz, 07)". (5.13) 


Bez zmian pozostaje założenie, że rozkład prawdopodobieństwa zgodności realizacji pary 
etykiet (ek(i, j), ek+1(1,))) z obserwacją oz(i, j) jest w każdym pikslu rozkładem normal- 
nym, ale przyjmuje się, że „=. wartościami średnimi są mo, mı, m2 albo ms, a 
wariancją jest, tak jak poprzednio, o 

Drugą modyfikacją, która wynika bezpośrednio z tej pierwszej, jest konieczność zmian 
energii przypisywanych realizacji (a, b), a przedstawionych w tablicy opisująca energię klik 
czasowych. Proponuje się zlikwidowanie parametru f; i zastąpienie go parametrem 5, z 
odpowiednim znakiem. Ponieważ realizacja (a, b), odpowiadająca sytuacji (ruch, tło), jest 
jedną z lepiej przedstawianych w masce zmian w obrazie, więc proponuje się przypisanie 
realizacji (a, b) takiej energii, która preferowałaby tę realizację w przypadkach uzasadnio- 
nych. Zmodyfikowana tabela określająca energię klik czasowych ma postać: 


Usjelee (i, j), ks1(1, J) | (2, 9)] = , 5.14) 
przy czym: 8, stała większa od zera. Wektor ©, przybiera postać: 
©, = |-5, Br, Be, —Brs Bes — Bes Bt, -B]" (5.15) 


Wprowadzone modyfikacje spowodowały, że za dopasowanie proponowanego modelu 
do analizowanej sekwencji obrazów odpowiadają cztery parametry: Mı, ma, M3 Oraz (oh 

Jako algorytm poszukiwania mody pola Markowa, ze względu na czas obliczeń, pro- 
ponuje się algorytm relaksacji deterministycznej. 
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5.4 Algorytmy estymacji mody pola Markowa-Gib- 
bsa przeznaczonego do detekcji masek obiektów 
ruchomych 


5.4.1 Relaksacja deterministyczna 


Zarówno w przypadku modelu LB jak i nowego modelu zaproponowanego w rozdziale 5.3, 
estymacja mody pola Markowa, opisującego rozkład etykiet a, b dla obrazów o nume- 
rach k oraz k + 1, polega na znalezieniu minimum całkowitej energii ukrytego pola 
Markowa-Gibbsa W4. określonej równaniem (5.1). Jedną z możliwości znalezienia realiza- 
cji (ek, ex+1) zapewniającej minimum energii Wk jest zastosowanie algorytmu relaksacji 
deterministycznej. Krok k-ty takiego algorytmu przedstawiono poniżej. 


1. Znajdź maski tnicjujące. tzn. maskę ej inicjującą korekcję maska k oraz 
maskę e? „, inicjującą predykcję maski k + 1-szej. Wyzeruj licznik iteracji 
GE= 0): 


2. Rozpocznij nową iterację (it = it +1). Wyzeruj licznik piksli (pk = 0). 


3. Wybierz kolejny piksel (pk = pk + 1) należący do dziedziny pola losowego. 
Załóżmy, że jest to piksel (i,j). Z czterech mozliwych realizacji (a, a), 
(a, b), (b, a), (b,b) charakterystyki lokalnej w pikslu (i, j) wybierz tę, która 
minimalizuje wartość energii U,; określoną równaniem (5.2). 


4. Jeśli piksel (i,j) nie był ostatnim (pk # M, przy czym M - liczba piksli 
należących do dziedziny pola losowego) skocz do 3. 


5. Jeśli zakończona tteracja nie była ostatnią założoną (it £ itmar) Oraz w 
zakończonej iteracji (o numerze it) dokonano jakiejkolwiek zmiany etykiet 
w stosunku do iteracji poprzedniej (o numerze it — 1) skocz do 2. 


6. KONIEC 


Zbieżność algorytmu do lokalnego minimum gwarantuje addvtywny charakter całko- 
witej energii pola ukrytego W4. gdyż dzięki temu minimalizacja energii U; nigdy nie 
powoduje wzrostu energii W, 

W przedstawionym algorytmie jako kryterium stopu zastosowano alternatywę dwóch 
warunków, tzn. osiągnięcie minimum lokalnego energii oraz wvkonanie zadanej z góry 
liczby iteracji. Drugi warunek jest zabezpieczeniem przed niestabilnością np. spowodowaną 
złym doborem wartości parametrów stosowanego modelu 

Algorytm zapewnia znalezienie minimum energii Wy, ale moze to być oczywiście mi- 
nimum lokalne. Z tego powodu wvniagana jest inicjacja obydwu poszukiwanych masek. 
Maską ef, inicjującą korekcję maski k-tej. może być maska otrzymana po predykcji w 
kroku poprzednim, tzn. k — 1. Wyjatek stanowi maska odpowiadająca pierwszemu ob- 
razowi analizowanej sekwencji. ponieważ w jej przypadku przeprowadzana jest jedynie 
korekcja, a tym samym maska e) musi być dostarczona z zewnątrz. Maska inicjująca pre- 
dykcję ej ,, może zostać znaleziona przy użyciu maski eq. dostępnych obserwacji og oraz 
Or W każdym pikslu (ż.j) etykieta ey,,(2.7). musi minimalizować ograniczoną energię 
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lokalną o postaci: 
U2 = U: + Ces; (5.16) 


przy czym Us ~ ograniczona energia lokalna. Ograniczona energia lokalna jest catkowita 
energią lokalną pola U,;, w której zrezygnowano ze składników przestrzennych. 

Przedstawiony algorytm zapewnia znalezienie minimum energii W, poprzez maksyma- 
lizację prawdopodobieństwa charakterystyk lokalnych. Z tego powodu można go nazwać 
algorytmem ICM. Należy jednak pamiętać, że różni się on od oryginalnego algorytmu 
ICM wprowadzony w pracy [Bes86]. W algorytmie z pracy [Bes86] w każdym pikslu pola 
losowego przeprowadza się maksymalizację rozkładu warunkowego postaci”: 


P(X; = z; | y,zsy), (5.17) 


przy czym: y ~ obserwacja, X, — wartość pola Markowa w piksłu i, zsy; — realizacja pola 
X bez i-tego piksla. 

Stosując tę samą notację algorytm deterministycznej relaksacji przedstawiony w ni- 
niejszym rozdziale opiera się na maksymalizacji prawdopodobieństwa warunkowego w 
postacı: 

P(X; = z; | Yi, Tai), (5.18) 


przy czym: X; = (ek(i),€441(1))7, yi = (Ox(1),ox(i))”, Tai — wszyscy przestrzeni sąsiedzi 
piksla. i. 

Jeżeli w dalszej części rozprawy pojawi się nazwa ICM, to pod tą nazwą będzie rozu- 
miany algorytm relaksacji deterministycznej przedstawiony w niniejszym rozdziale. 


5.4.2 Modyfikacja przyspieszająca algorytm relaksacji deter- 
ministycznej 


Algorytm relaksacji deterministycznej pozwala na względnie szybkie osiągnięcie lokalnego 
minimum energii. Najczęściej liczba iteracji nie przekracza 30. Jeżeli jednak sekwencja 
składa się dużej liczby obrazów, to nawet liczba 30 iteracji potrzebna do znalezienia masek 
obiektu dla każdych dwóch obrazów sekwencji, może w sumie prowadzić do dość długich 
czasów obliczeń. Przeprowadzone eksperymenty dla sekwencji składających się z sześciu 
obrazów o rozmiarach 256 x 256 piksli i 256 poziomach szarości przy użyciu algorytmu 
relaksacji deterministycznej (maksymalna założona liczba iteracji była równa 25) wyma- 
gały około 40 minut do przeprowadzenia detekcji masek obiektu ruchomego (komputer 
klasy IBM AT 486). Zastanówmy się czy nie można jakoś tego przyspieszyć? 

Jeżeli pole Markowa jest dobrze „dopasowane” do danych, to algorytm relaksacji de- 
terministycznej jest w stanie znaleźć jego realizację o minimalnej energii. Zanim jednak 
minimum zostanie osiągnięte, w każdej iteracji w każdym pikslu trzeba czterokrotnie (dla 
każdej realizacji (a,a). (a,b), (b,a) oraz (b,b)) obliczyć wartość energii U,,. Za każdym 
razem wykonywanych jest kilkanaście sumowań oraz conajmniej po jednym dzieleniu i 
mnożeniu (dzielenie i mnożenie wymagane jest do obliczenie lokalnej energii zgodności 


ŚW przedstawionym wzorze zastosowano oznaczenia z pracy [Bes86}. Między innymi dla uproszczenia 
notacji przyjęto, że piksle obrazu ustawiono w pewien ciąg, dzięki czemu pojawia się tylko jeden indeks 
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U;,.). Ponieważ algorytm relaksacji deterministycznej jest algorytmem deterministycz- 
nym, więc zmiana etykiet w pikslu aktualnym dokonywana jest tylko na podstawie re- 
alizacji etykiet w pikslach sąsiednich. Jeżeli lokalnie dla pewnej grupy piksli osiągnięto 
rozkład optymalny, to w trakcie kolejnych iteracji przyporządkowane etykiet nie będą już 
zmieniane. Aby skrócić czas obliczeń należy unikać wykonywania niepotrzebnych ope- 
racji. Można tego dokonać wprowadzając dwuwymiarową tablicę znaczników binarnych, 
która rozmiarem odpowiada dziedzinie pola losowego, a jak wiadomo w przypadku roz- 
ważanych modeli dziedzina jest podzbiorem przestrzeni 2D. W każdej iteracji, w każdym 
pikslu należy uaktualniać zawartość tablicy znaczników, zaznaczając fakt dokonania bądź 
niedokonania zmian etykiet. W każdej iteracji, poza pierwszą, można skorzystać z takiej 
tablicy w następujący sposób: na początku każdego kroku algorytmu relaksacji determi- 
nistycznej należy najpierw sprawdzić, czy któremukolwiek sąsiadowi zmieniono ostatnio 
etykiety, tzn. czy ustawiony jest którykolwiek ze znaczników. Jeśli odpowiedź jest ne- 
gatywna, to można przejść do następnego kroku algorytmu bez wykonywania zbędnych 
obliczeń. W przeciwnym przypadku trzeba wykonać wszystkie wymagane obliczenia. 

Jak pokazały przeprowadzone eksperymenty taka prosta modyfikacja polegająca na 
wprowadzeniu tablicy znaczników pozwala skrócić czas obliczeń nawet do 20 razy. W 
przypadku tej samej sekwencji co dla algorytmu relaksacji deterministycznej bez mody- 
fikacji, czas obliczeń po wprowadzeniu modyfikacji wynosił poniżej dwóch minut, przy 
wykorzystaniu tego samego komputera. 


5.4.3 Symulowane wyżarzanie 


W przypadku implementacji algorytmu symulowanego wyżarzania trzeba rozwiązać wstęp- 
nie kilka problemów, a mianowicie: 


e wybór funkcji temperatury, 

e sposób znajdowania charakterystyki lokalnej, 

e sposób losowania par etykiet będących realizacjami charakterystyki lokalnej. 
Dobór funkcji temperatury. Optymalna funkcja zmian temperatury zaproponowana 


w [GG84] nie nadaje się do implementacji komputerowych. Jednak w tej samej pracy 
zaproponowano funkcję suboptymalną o postaci: 


C 
T(n)=——— 5.19 
(m) In(1 + n) ( ) 
przy czym: n — nr iteracji, n = 1,..., Tomar. C - pewna stała większa od zera. W 


pracy [GG84] zaproponowano: C = 3 i nma: = 300. Taka funkcja zmiany temperatury 
była odpowiednia, ale do modelu zaproponowanego w tej pracy. 

Jednym z założeń, na którym opiera się symulowane wyżarzanie, jest przyjęcie jednako- 
wych prawdopodobieństw każdej realizacji etykiet w pierwszej iteracji, tzn. temperatura 
T(1) musi być odpowiednio wysoka. Należy więc tak dobrać wartość stałej C. aby ten 
warunek w pierwszej iteracji był spełniony. Temperatura w pierwszej iteracji wynosi: 


T(1) = © 


= — 5.20 
In2 ( ) 
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Dla uproszczenia opisu oznaczmy realizacje etykiet (a, a), (a,b), (b, a), (b,b) odpowiednio 
przez €j, €2, €3, e4. Przeanalizujmy wyrażenie opisujące rozkład prawdopodobieństwa 
charakterystyki lokalnej modelu LB oraz modelu nowego na przykładzie kombinacji ej. 
W takiej sytuacji mamy: 


P((Ex(i, j), Exa(i,3)) = e | easy] = (5.21) 
exp [pe] 
ZS ED T exp EG + exp [= Hyles] + exp [= Laa] 


Dzieląc licznik i mianownik prawej strony równania (5.21) przez exp [=x] otrzymu- 
jemy: 


1 
1 + exp [2:2] + exp [222] + exp [avs] 


P((Ex(t,9), Bear (i, j)) = e | any] = (5.22) 


Gdyby każdy z wykładników funkcji wykładniczych mianownika był w przybliżeniu równy 
0, to prawdopodobieństwo wystąpienia kombinacji etykiet e; byłoby w przybliżeniu równe 
i. Powtarzając takie rozumowanie dla następnych kombinacji etykiet zauważymy, że praw- 
dopodobieństwo wystąpienia każdej z kombinacji opisane jest podobnym wyrażeniem. 
Bazując na postaci tych wzorów można określić algorytm doboru wartości stałej C dla 
konkretnego pola Markowa. Algorytm ten przedstawiony jest poniżej. 


1. Oblicz maksymalną i minimalna wartość całkowitej energii lokalnej, bez 
uwzględniania wpływu temperatury, tzn. przyjmując T = 1, jaka może 
wystąpić dla rozwazanego pola, dla dowolnej realizacji etykiet w aktual- 
nym pikslu i jego sąsiedztwie. AU =?. 

2. Dobierz taką temperaturę T(1) aby: T(1)=0.1| AU |. * 


3. Oblicz stałą C ze wzoru: C = T(1)ln2. 


W przedstawionym algorytmie wvstępuje próg równy 0.1. Oczywiście temperaturę 7(1) 
należało by tak dobrać aby w równaniu: 


- l 
PI(Ex(i,3), Ex-1(1.5)) = e: | eau) = - 


ię exp [242] + exp [3u] + exp EN 


on 
nN 
oS 


wykładnik każdej funkcji wvkładniczej by! równy zero. W takim przypadku prawdopo 
dobieństwo pojawienia się kombinacji e} wynosiłobyv dokładnie L, ale wtedy temperatura 
T(1) powinna dążyć do nieskończoności. 


Charakterystyka lokalna. W każdym pikslu może wystąpić jedna z czterech realiza- 
cji etykiet (a, a), (a,b), (b,a) lub (b.b). Ustalenie rozkładu charakterystyki lokalnej trzeba 
przeprowadzać w każdym pikslu oddzielnie ze względu na jego sąsiedztwo. Korzystając 
czterokrotnie z równania (5.2), obliczamy prawdopodobieństwa wystąpienia każdej z re- 
alizacji. Oznaczmy te prawdopodobieństwa przez pı, p2. p3 Oraz pq 
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Algorytm losowania pary etykiet z charakterystyki lokalnej. Przyjmijmy, że 
uporządkowaliśmy możliwe realizacje. Losowanie pary etykiet z charakterystyki lokalnej 
można przeprowadzić następująco: 


I. 


© & WA AK © M 


Oblicz prawdopodobieństwa pı, p2, p3, pa wystąpienia poszczególnych re- 
alizacji w danym pikslu (korzystając ze wzoru (5.2)). 


. Wylosuj liczbę l z rozkładu równomiernego na przedziale [0. 1]. 
. Jeśli | > p, skocz do 5. 
. Wylosowano realizację nr 1. STOP. 


Jeśli | > pą skocz do 7. 
Wylosowano realizację nr 2. STOP. 


. Jeśli | > ps skocz do 9. 


Wylosowano realizację nr 3. STOP. 


. Wylosowano realizację nr 4. STOP. 


Poniżej przedstawiono tę część algorytmu symulowanego wyżarzania, która dotyczy 
pojedynczego piksla. 


rf 
2. 


Daw 


Weź nowy piksel. 


Wylosuj nową realizację pary etykiet (ex(i, j), €xz1(1,))) w aktualnym pik- 
slu według algorytmu przedstawionego powyżej. Niech e,; oznacza aktu- 
alną kombinację etykiet, natomiast eij oznacza kombinację nowo wyloso- 
waną. 


. Jeśli w całkowitej charakterystyce lokalnej e;; ma większe prawdopodo- 


bieństwo wystąpienia (mniejszą całkowitą energię lokalną) niz eij to za- 
akceptuj nową kombinację i skocz do 1. 


. Oblicz wartość liczby q będącej stosunkiem prawdopodobieństwa nowej 


kombinacji do starej. 
Wylosuj liczbę | z rozkładu równomiernego na (0, 1]. 


Jeśli q > | zaakceptuj nową kombinację 


. Skocz do 1 
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Rozdział 6 


Kryterium oceny dokładności 
masek obiektów ruchomych 


W niniejszym rozdziale wprowadzono dwie statystyki określone na znajdowanych ma- 
skach obiektu ruchomego. Wartości tych statystyk mogą posłużyć do obiektywnej oceny 
' okładności przeprowadzonej detekcji. Statystyki te zostały wykorzystane w następnych 
: zdziatach do porównania efektów otrzymywanych przy użyciu modelu LB oraz nowego 
modelu z dwuwymiarowym wektorem obserwacji. 
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6.1 Ocena dokładności masek obiektów ruchomych 


W przypadku komputerowych metod przetwarzania obrazów występuje problem oceny 
dokładności znajdowanych efektów. Jeżeli oceniane są obrazy otrzymywane przy użyciu 
tylko jednej metody, to można zastosować kryterium subiektywnej percepcji, tzn. klasy- 
fikację znalezionych obrazów do grup: bardzo dobry, dobry lub zły. Wykorzystanie su- 
biektywnej percepcji do porównania ze sobą obrazów otrzymywanych za. pomocą różnych 
metod, przeznaczonych do tego samego celu, jest praktycznie niemożliwe. Zasadniczym 
tego powodem jest to, że kryterium subiektywnej percepcji w dużym stopniu zależy od 
opinii oceniających ludzi, a te mogą się przecież bardzo różnić między sobą. Z taką wła- 
śnie sytuacją mamy do czynienie w przypadku masek obiektu ruchomego znajdowanych 
za pomocą modelu LB oraz nowego modelu z dwuwymiarowym wektorem obserwacji. 
Z tego powodu pojawiła się konieczność opracowania nowego, obiektywnego kryterium 
oceny dokładności znajdowanych masek obiektu ruchomego. 

Dobrym testem do oceny dokładność znalezionych masek obiektu mogą być wartości 
dwóch statystych określonych na tych maskach, tzn. 


1. statystyka —a będąca liczbą piksli faktycznie należących do tła, którym błędnie 
przypisano etykietę a, 


2. statystyka —b, czyli liczba rzeczywistych piksli obiektu błędnie zakwalifikowanych 
jako tło. 


. 


Aby ocenić efekty znajdowane za pomocą różnych metod detekcji ruchu wystarczy 
zastosować te metody dla tej samej testowej sekwencji obrazów, a następnie obliczyć dla 
każdej znalezionej maski wartości obydwu statystyk. Pozostaje oczywiście problem wy- 
boru testowej sekwencji obrazów. Nie może być to sekwencja naturalna, gdyż brak wiedzy 
o dokładnym położeniu obiektu uniemożliwiałby obliczenie statystyk >a oraz =b. Raczej 
powinna być to sekwencja utworzona w sposób sztuczny. w przypadku której znane jest 
dokładne położenie obiektu w kolejnych obrazach. Jednocześnie nie może być to sekwencja 
zbyt „łatwa” z punktu widzenia analizy ruchu, tzn. taka, dla której można przeprowadzić 
detekcję maski poruszającego się obiektu poprzez zastosowanie np. progowania histogra 
mów [$191]. 

W rozdziale 6.2 przedstawiono cztery testowe sekwencje obrazów przeznaczone do 
oceny dokładności masek obiektu ruchomego znajdowanych przy użyciu modelu LB oraz 
nowego modelu z dwuwvmiarowym wektorem obserwacji. 


6.2 Testowe sekwencje obrazów 


Aby ocenić maski obiektu ruchomego znajdowane przy użyciu różnych metod stworzono 
cztery sztuczne sekwencje obrazów o rozdzielczości 256 x 256 piksli i 256 odcieniach sza- 
rości, przedstawiające poruszający się kwadrat o rozmiarach 80 x 80 piksli. W przypadku 
każdej z sekwencji przyjęto. że jasność tła jest stała, a jasność obiektu zmienia się liniowo w 
pewien wybrany dla każdej sekwencji sposób. Sekwencje zostały zaszumione addytywnym 
białym szumem o wartości średniej 0 i wariancji 225. Stworzone sekwencje oznaczono K, 
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L. M, N. Każda z nich składa się z sześciu obrazów. Sekwencje pokazane są odpowiednio 
na rysunkach 6.1, 6.3, 6.5, 6.7. 

Przyjęcie liniowej zamiast stałowartościowej funkcji jasności poruszającego się obiektu 
miało na celu uniknięcie przeprowadzania testów za pomocą tzw. „trudnych”, ze względu 
na analizę ruch, sekwencji obrazów, tzn. takich dla których lokalna miara zmian w przy- 
padku sytuacji (tło, tło) oraz (ruch, ruch) ma identyczne wartości. Detekcja masek obiek- 
tów ruchomych w przypadku sekwencji „trudnych” zostanie omówiona w rozdziale 10. 

W każdej z testowych sekwencji K, L, M, N obiekt porusza się w kierunku prawego 
dolnego narożnika. Położenie kwadratu w odpowiadających sobie obrazach w przypadku 
wszystkich sekwencji jest identyczne. Sekwencje przedstawiają szybki jednostajny ruch, 
co oznacza, że względne zmiany położenia w kolejnych obrazach są duże. W szczególności 
wektor przemieszczenia ma stałą wartość — 40 piksli w poziomie i 30 piksli w pionie. W 
wszystkich sekwencjach przed zaszumieniem jasność obiektu zmienia się w sposób liniowy, 
przy czym zakres zmian dla sekwencji K, L, M jest identyczny i wynosi 20 poziomów sza- 
rości, tzn. mniej niż 10 procent całego możliwego zakresu funkcji jasności. Dla sekwencji N 
zakres zmian jasności obiektu wynosi aż 40 poziomów szarości. Wzajemne relacje pomię- 
dzy jasnością tła oraz obiektu dla sekwencji K, L, M, N zostały pokazane odpowiednio na 
rys. 6.2, 6.4, 6.6, 6.8. 

Sekwencje K oraz L różnią się między sobą relacją pomiędzy jasnością obiektu i tła. W 
sekwencji K poruszający się obiekt jest zawsze jaśniejszy od tła (przed dodaniem szumu), 
przy czym różnica pomiędzy jasnością tła i minimalną obiektu wynosi 20 poziomów sza- 
rości, tzn. tyle samo co zakres zmian funkcji jasności obiektu. W przypadku sekwencji L 
obiekt jest zawsze ciemniejszy od tła, ale różnica pomiędzy jasnością tła i maksymalną 
jasnością obiektu ponownie wynosi 20 poziomów szarości. Sekwencja M jest właściwie 
pewną modyfikacją sekwencji K. W obydwu sekwencjach obiekt przed zaszumieniem jest 
jaśniejszy od tła, z tym że w przypadku sekwencji K obiekt porusza się częścią jaśniej- 
szą do przodu, przeciwnie niż w przypadku sekwencji M. Sekwencja N przedstawia ruch 
obiektu, który jest zarówno jaśniejszy jak i ciemniejszy od tła. 


6.3 Estymacja parametrów modelu LB oraz nowego 
modelu z dwuwymiarowym wektorem obserwa- 
cji dla sekwencji testowych 


Celowość doboru sekwencji testowych przedstawionych w rozdziale 6.2 można wyjaśnić 
przeprowadzając estymację parametrów mı. mą dla modelu LB oraz m, -m; w przypadku 
nowego modelu z dwuwymiarowym wektorem obserwacji. Ponieważ dostępna jest pełna 
wiedza o każdej z testowych sekwencji, możliwym więc staje się estymowanie parametrów 
metodą uśrednienia obserwacji ox dla każdej z realizacji. Wartości parametrów modelu LB, 
obliczone w taki sposób, przy wykorzystaniu sekwencji niezaszumionych, przedstawiono 
w tab. 6.1, a dla nowego modelu w tab. 6.2. 

Zaprezentowane tablice tłumaczą sposób wyboru sekwencji testowych. Estymaty pa- 
rametrów m; modelu LB dla sekwencji K oraz L są identyczne, chociaż sekwencje K oraz 
L wyraźnie się różnią między sobą. W przypadku nowego modelu powyższy problem nie 
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Rys. 6.1: Sekwencja K. Jasność obiektu (przed zaszumieniem) zmienna liniowo w zakresie od 
135 do 155, jasność tła jest równa 115. 


kierunek 
e ruch 


Rys. 6.2: Wzajemna relacja pomiędzy jasnością tła i obiektu dla sekwencji K z rys. 6.1. 
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Rys. 6.3: Sekwencja L. Jasność obiektu (przed zaszumieniem) zmienna liniowo w zakresie od 
115 do 135. jasność tła jest równa 155. 


155 kierunek 
145 Nie 1u 
135 

125 


Rys. 6.4: Wzajemna relacja pomiędzy jasnością tła i obiektu dla sekwencji L z rys. 6.3. 
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Rys. 6.5: Sekwencja M. Jasność obiektu (przed zaszumieniem) zmienna liniowo w zakresie od 
115 do 135. jasność tła jest równa 155. 


NI kierune ok 


rucnu 
N 


Rys. 6.6: Wzajemna relacja pomiędzy jasnością tła i obiektu dla sekwencji M z rys. 6.5. 
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Rys. 6.7: Sekwencja N. Jasność obiektu (przed zaszumieniem) zmienna liniowo w zakresie od 
108 do 148, jasność tła jest równa 128. 


© kierunek 
A ruchu 
` 


Rys. 6.8: Wzajemmna relacja pomiędzy jasnością tła i obiektu dla sekwencji N z rys. 6.7. 
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Tą 

(a,b) lub (b, a) 
PsekwencjaK[ 2.27 |-10 | 
[sekwencja N | a55 — | -20 | 


Tab. 6.1: Estymaty parametrów m; oraz m modelu LB dla niezaszumionych sekwencji K, L, M, 
N. Parametry zostały estymowane metodą uśrednienia różnicy 0, dla odpowiednich realizacji. 


Tab. 6.2: Estymaty parametrów mı, m2 oraz m3 nowego modelu z dwuwymiarowym wektorem 
obserwacji dla niezaszumionych sekwencji K, L, M, N. Parametry zostały estymowane metodą 
uśrednienia różnicy og dla odpowiednich realizacji. 


występuje. Wartości parametrów m; oraz mą odpowiadające za sytuacje przejściowe, są 
w przypadku wszystkich sekwencji różne. 


Rozdział 7 


Badania eksperymentalne modelu 
LB 


W niniejszym rozdziale przedstawiono wyniki badań eksperymentalnych modelu LB. W 
pracach [BL90, LB90| zaprezentowano jedynie skąpe efekty detekcji ruchu otrzymane 
dzięki zastosowaniu tego modelu. Badania, których wyniki zamieszczono w niniejszy roz- 
dziale, zostały przeprowadzone przede wszystkim pod kątem oceny użyteczności modelu 
LB do detekcji masek obiektów ruchomych. Z tego powodu gruntownie przebadano wrażli- 
wość tego modelu na wartości parametrów, jak również, korzystając z kryterium wprowa- 
dzonego w rozdziale 6, oceniono dokładność znajdowanych masek obiektu ruchomego. Na 
podstawie otrzymanych wyników określono kryteria, którymi można się kierować w trak- 
cie doboru parametrów modelu. Dodatkowym powodem przeprowadzenia eksperymentów 
była chęć porównania modelu znanego z literatury z nowym modelem z dwuwymiarowym 
wektorem obserwacji zaproponowanym w niniejszej rozprawie. 
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7.1 Rola poszczególnych składników energii modelu 
LB 


W pracach [BL90, LB90] zaproponowano takie same wartości współrzędnych wektorów 
G,, ©,, które w niniejszej rozprawie zostały przedstawione w rozdziale 5.2. Na ich pod- 
stawie zostaną przeanalizowane obecnie wzajemne relacje energii U,,, = Uijs + Uys, Z 
energią czasową U;,,. Przyjęcie 8, = 10 spowodowało, że energia poszczególnych klik 
przestrzennych może przybierać tylko wartości 10 albo —10. W konsekwencji wartość 
każdej z lokalnych energii przestrzennych należy do przedziału [—80, 80], a wartość całej 
energii przestrzennej U,,, nigdy nie będzie mniejsza niż —160 i większa od 160. Sytuacja 
optymalna, tzn. U;,, = —160 ma miejsce wtedy, gdy w dwóch kolejnych obrazach pikslowi 
oraz wszystkim jego sąsiadom przestrzennym przyporządkowane są takie same etykiety. 
W najbardziej niekorzystnym przypadku U,,, = 160. Odpowiada to sytuacji. w której 
pikslowi w kolejnych obrazach przyporządkowano przeciwne etykiety niż wszystkim jego 
sąsiadom przestrzennym. 

Wg [BL90, LB90] parametry określające energię klik czasowych mają wartości: i; = 
100 oraz £; = 1000. Oznacza to, że wartość lokalnej energii czasowej może zawierać się w 
przedziale [—100, 1000]. Tak jak zostało to już wspomniane w rozdziale 5, para etykiet. dla 
której energia czasowa przybiera wartość 1000 praktycznie jest w sposób deterministyczny 
wykluczona, co może być przyczyną błędów popełnianych w trakcie predykcji. Wszystkie 
pozostałe przypadki dla klik czasowych dają wartości energii czasowej zbliżone do zakresu 
zmian energii przestrzennej. Maksymalna co do modułu wartość Uj;, jest o 60% większa 
od energii czasowej, a to oznacza, że w modelu LB spójność przestrzenna ma większy 
priorytet niż czasowa. 


7.2 Badania eksperymentalne — sekwencja K 


We wszystkich eksperymentach jako obserwację 6, wybrano idealne maski zmian w obra- 
zie z rys. 7.1, a inicjację korekcji pierwszej maski obiektu przeprowadzono idealną maską 
z rys. 7.2. Ze względu na czas obliczeń, do estymowania mody modelu LB, wybrano al- 
gorytm deterministycznej relaksacji opisany w rozdziale 5.4, przy czym piksle w każdej 
iteracji były przemiatane z wykorzystaniem kodingów [Bes74, Kur], dzięki czemu unik- 
nięto narzuconej niejednorodności [Car92] znajdowanych masek. 

Ocenę jakości znajdowanych masek obiektu ruchomego przeprowadzano przy użyciu 
statystyk —a, —b określonych na tych maskach. Jako kryterium stabilności procesu de- 
tekcji ruchu wybrano liczbę iteracji, po której dla każdej z masek osiągany jest stan 
stabilny. Ponieważ maska odpowiadająca pierwszemu obrazowi sekwencji jest nietypowa 
gdyż poddawana jest tylko korekcji, więc dodatkowo zdecydowano się na porównanie war- 
tości statystyk >a, =b dla pierwszej i drugiej maski obiektu ruchomego. 

Na początku postawiono sobie za cel wykrycie masek obiektu dla sekwencji K z rvs. 6.1. 
Wartości parametrów m; oraz mą przyjęto zgodnie z tab. 6.1. Parametrowi o? przypisano 
wartość wariancji dodanego szumu. tzn. 225. 

Znalezione maski obiektu przedstawiono na rvs. 7.3. Detekcja ruchu została zakoń 
czona sukcesem. Jedvnie dla ostatniego obrazu znaleziona maska nie przypomina obiektu 
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Rys. 7.1: Idealne maski zmian czasowych dla sekwencji K. L. M. N 


Rys. 7.2: Idealna maska obiektu ruchomego dla pierwszego obrazu sekwencji K. L. M. N. uży- 
wana w algorytmie relaksacji deterministycznej do inicjacji korekcji maski tego obrazu 
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|] MASKA 1 MASKA 2 UWAGI 
[a] ab [ ki ma | >b | p2 | ke/ps 


| m) = ty = 2.27, my = ñ = —10, og = 225 
[orus [0 9 10 JER | 


| m < m? 
m <m? | 


mı S m$ 
m; 2 mą 


; Mą = Mą 


EM 
[282 | 0|_5/4 | 
[s fo] ai/ar PU. «0a | 


Po | | 
zs {ojaa po] 
[225| 5 |255] 4 [7 | 
2250 | 0 3| 


Tab. 7.1: Wpływ zmian parametrów modelu LB na wyniki detekcji masek obiektu ruchomego 
odpowiadających sekwencji K z rys. 6.1. Grupa kolumn oznaczonych MASKA 1 zawiera wyniki 
wyłącznie korekcji, ponieważ odnosi się do maski znalezionej dla pierwszego obrazu sekwencji 
K. W grupie kolumn oznaczonych MASKA 2 zebrano wyniki dotyczące maski odpowiadającej 
drugiemu obrazowi sekwencji K, tzn. maski, która była poddana zarówno predykcji jak i korekcji. 
W kolumnach oznaczonych —a. —b zebrano wartości statystyk. będących podstawą kryterium do 
oceny dokładności znalezionych masek, wprowadzonego w rozdziale 6. W kolumnie oznaczonej ki 
zebrano liczby iteracji algorytmu relaksacji deterministycznej, w implementacji kodingowej, po 
których maska odpowiadająca pierwszemu obrazowi sekwencji K nie ulegała dalszym zmianom. 
W kolumnie oznaczonej p? podano analogiczną liczbę iteracji ale odnoszącą się do predykcji 
maski dla drugiego obrazu sekwencji K. W kolumnie oznaczonej k2/p3 podano liczbę iteracji 
potrzebnych do przeprowadzenia korekcji maski drugiej i predykcji maski trzeciej. Parametry 
mf, m$ zostały przyjęte wg tab. 6.1, tzn. są to wartości obliczone dla sekwencji niezaszumionej. 
Brak wskaźnika 0 przy parametrze oznacza, że jest on zmieniany arbitralnie. Symbol * przy 
liczbie iteracji oznacza, że nawet w tej iteracji nie osiągnięto stanu stabilnego. 
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Rvs. 7.3: Maski obiektu ruchomego znalezione dla sekwencji K — model LB, relaksacja feiern- 
uistyczna. Parametry: m; = my = 2.27 (estymowane), mą = mą = —10 (estymowane), o” = 225. 
Maski pierwsza i ostatnia przedstawione są w negatywie ze względu na niekompletność procesu 
ich detekcji, pierwsza to efekt wyłącznie korekcji a ostatnia wyłącznie predykcji. 


a tylko maskę zmian. Przyczyną jest to, że dla ostatniego obrazu przeprowadzany jest je- 
dvnie etap predykcji. Wartości statystyk dla sekwencji masek z rys. 7.3 przedstawione są w 
pierwszym wierszu tab. 7.1. Dokładność znalezionych masek wydaje się być dobra. Tylko 
11 pikslom obiektu błędnie przypisano etykietę b po korekcji pierwszej maski. Podobny 
problem wystąpił po predvkcji i korekcji maski nr 2. Ani jednego piksla tła nie zakwa- 
lilikowano błędnie jako należącego do obiektu ruchomego. Jest to najprawdopodobniej 
kutkiem wvkorzystania idealnvch masek zmian w obrazie. 


Na rvs. 7.4 porównano ze sobą maski obiektu ruchomego otrzymane po predykcji. a 


następnie poprawione po korekcji. Analizując je można stwierdzić, że teoretyczne rozwa- 
stawione w rozdziale 5.3. dotyczące błędnie przypisywanych etykiet a w czasie 


wedvkcji. są prawdziwe. Dodatkowym potwierdzenie sformułowanego w rozdziale wniosku 

niki przedstawione na rys. 7.5. 7.6. 7.7. Na rys. 7.5 przedstawione są maski inicjujące 
nedvkcję wszystkich. poza pierwszą, masek obiektu ruchomego. Z powodu wykluczenia 
realizacji (a.b) maska inicjująca predykcję jest za każdym razem nadzbiorem odpowied 
nie) maski zmian w obrazie. Na rys. 7.6 pokazane są zmiany maski po kolejnych iteracjach 
predykcji. Na rysunku tym bardzo wyraźnie widoczne jest „mozolne” usuwanie zbędnych 
etvkiet przypisanych w trakcie inicjacji. Jednocześnie maska znaleziona po predykcji jest 
całkowicie zgodna z maską zmian. czego powodem ponownie jest wykluczenie realizacji 
(a.b). Na rvs. 7.7 pokazane są również zmiany znajdowanej maski, ale tym razem po kolej- 
nych iteracjach korekcji. Wyraźnie widoczne są konsekwencje predykcji przeprowadzonej 
na wyrost”, jak poprzednio z powodu wykluczenia realizacji (a, b) 
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Rys. 7.4: Porównanie masek obiektu znalezionych jedynie po predykcji (lewo) a następnie po 
prawionych w trakcie korekcji (prawo) dla sekwencji K. model LB. algorytm relaksacji deter 
ministycznej. Wartości parametrów jak dla rys. 7.3 (estymowane). Maska nr 1 poddana została 
tylko korekcji, a maska nr 6 jedynie predykcji. 
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Rys. 7.5: Maski inicjujące predykcję masek odpowiadających obrazom 2-6 sekwencji K, znale- 
zione wg metody inicjacji przedstawionej w rozdziale 5.4, model LB, algorytm relaksacji deter- 
ministycznej. Wartości parametrów jak dla rys. 7.3 (estymowane). 


Konsekwencje odtwarzania maski zmian w trakcie predykcji widoczne są także w ko- 
lumnie k2/p3 tab. 7.1, w której podano liczbę iteracji potrzebnych do osiągnięcia minimum 
energii podczas korekcji maski 2 i jednoczesnej predykcji maski 3. Jak było już wspo- 
mniane, analizowana sekwencja przedstawia ruch szybki, czyli piksli z sytuacji przejścio- 
wych jest względnie dużo. Dla maski pierwszej, dla której nie przeprowadzano predykcji 
i jednocześnie brak jest źle przydzielonych etykiet a, stan stabilny osiągany jest już po 
trzech iteracjach. W przypadku maski nr 2 korekcja trwa aż 21 iteracji, gdyż musiała być 
usunięta duża liczba fałszywych etykiet a. 

Jednym z parametrów pozwalających ocenić użyteczność metody dla zastosowań prak- 
tycznych jest czas obliczeń potrzebny do znalezienia rozwiązania. Ponieważ czas wyrażony 
w jednostkach bezwzględnych jest zależny od konkretnego systemu komputerowego. lepiej 
jest określać go za pomocą liczby iteracji. Rvs. 7.8 obrazuje czas trwania poszczególnych 
kroków metodv (krokiem i określa poszukiwanie optymalnej realizacji etykiet dla obra- 
zów i oraz i + 1) wymaganych do znalezienia masek z rys. 7.3. Kolumny ky. 7» tab. 7.1 
informują, że jeżeli tylko algorytm jest stabilny, to pierwszy krok metody (7 = 1) trwa 
najczęściej o wiele.krócej niż pozostałe. Chociaż predykcja p najczęściej nie wymaga 
żadnej iteracji, to jednak musi być ona wykonywana aż do ustabilizowania się korekcji ky, 
gdyż czas trwania kroku ż jest równy maksymalnej z liczb k, oraz p,+,. Mała liczba iteracji 
wymagana dla kroku pierwszego wynika z jego nietypowości, gdyż korekcja maski pierw- 
szej w przeprowadzonych eksperymentach była inicjowana idealną maską. Pozostałe kroki 
(w przypadkach stabilnych) trwają najczęściej „aż” 21 iteracji. Oznacza to, że rezultaty 
z rys. 7.3 zostały otrzymane po 87 iteracjach. co też zostało przedstawione na rys. 7.8. 


112 BADANIA EKSPERYMENTALNE MODELU LB... 


kk, 


LIJ 


p = 


Rys. 7.6: Kolejne iteracje wyniku predykcji maski obiektu odpowiadającej trzeciemu obrazowi 
sekwencji K, model LB, algorytm relaksacji deterministycznej. Wartości parametrów jak dla 
rys. 7.3 (estymowane). 
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Rys. 7.7: Kolejne iteracje wyniku korekcji maski odpowiadającej drugiemu obrazowi sekwen- 
cji K, model LB, algorytm relaksacji deterministycznej. Wartości parametrów jak dla rys. 7.3 
(estymowane) 
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Rys. 7.8: Rysunek obrazujący czas obliczeń wyrażony za pomocą liczby iteracji algorytmu re- 
laksacji deterministycznej, potrzebnych do znalezienia masek z rys. 7.3 - model LB. Symbole k; 
oraz p; odnoszą się odpowiednio do korekcji i predykcji maski odpowiadającej i-temu obrazowi 
sekwencji K. Łączny czas obliczeń wynosi 87 iteracji. 


Implementacja algorytmu relaksacji deterministycznej z normalnym przeglądaniem 
piksli, tzn. wiersz po wierszu kolumna po kolumnie, pozwala na skrócenie czasu obli- 
czeń. Przeprowadzając eksperymenty analogiczne do tych z rys. 7.3, ale zmieniając tylko 
sposób przeglądania piksli na normalny, korekcja zarówno maski nr 1 jak i 2 zajęła tylko 
5 iteracji. Jednak w celu uniknięcia efektów powodowanych przez normalne przeglądanie 
piksli [Car92] we wszystkich badaniach, których wyniki zamieszczone zostały w niniej- 
szej rozprawie, stosowano konsekwentnie implementację kodingową algorytmu relaksacji 
deterministycznej. 

Na rys. 7.9 przedstawiono rezultat, gdy z góry ograniczono do ośmiu w każdym kroku 
liczbę iteracji algorytmu relaksacji deterministycznej. Widać, że fałszywe etykiety przy- 
pisane podczas predykcji nie zostały usunięte w czasie korekcji, a przez to propagują w 
następnych krokach. 

Następną serię eksperymentów przeprowadzono w celu sprawdzenia wrażliwości mo- 
delu na wartość parametru mı. Sytuacją wyjściową była sytuacja z rys. 7.3. Wartość mı 
zmieniano tak, aby uwzględnić możliwie wszystkie sytuacje, tzn. m; < m2, m; % Ma oraz 
m, > ma. Przykładowe maski przedstawiono na rys. 7.10 przy m, < m2. Widoczne są 
spore braki piksli obiektu. Pełne wyniki przedstawiono w pierwszej części tab. 7.1. Wy- 
nika z nich, że najlepszą maskę otrzymano nie tylko gdy m; > my (tak jest w sytuacji 
wyjściowej), ale gdy dodatkowo m; ma wartość dużo większą niż wartość estymowana mp. 

Z kolei przebadano wrażliwość modelu na wartość mą - druga część tab. 7.1. Znowu 
rezultaty są zadowalające, gdy tylko m; > mą. W przypadkach, w których m? > m, algo- 
rytm nie znajduje minimum energii, a otrzymane maski (por. rys. 7.11) tylko w pewnym 
stopniu przypominają obiekt. 

Trzecia seria eksperymentów, ilustrowana końcową częścią tab. 7.1, miała na celu zba- 
danie wpływu energii zgodności na rezultaty detekcji. Można zwiększyć udział energii 
zgodności k razy poprzez zmniejszenie k razy parametrów 3,, 8, i i. Można tego również 
dokonać zmniejszając k razy wartość parametru wariancji o? energii zgodności. Zapre- 
zentowane w tab. 7.1 wyniki sugerują. że 10 krotne zmniejszenie lub zwiększenie poziomu 
energii zgodności nie ma najmniejszego wpływu na otrzymane rezultaty. w przypadku 
gdy wyjściowe wartości parametrów mł, m$ zapewniały stabilność rozwiązania. Nato- 
miast 100 podwyższenie udziału energii zgodności prowadzi już do złych wyników. patrz 
np. rys. 1.12. 

Reasumując eksperymenty przeprowadzone dla sekwencji K można stwierdzić, że w 
zasadzie (z dokładnością do kilkunastu piksli) wartości parametrów m; i ma nie mają 
większego wpływu na otrzymywane wyniki (do takiego wniosku doszli również Lalande 


BADANIA EKSPERYMENTALNE MODELU LB... 115 


* 
„i 


Rys. 7.9: Maski obiektu ruchomego z sekwencji K, model LB, algorytm rełaksacji determini- 
stycznej. Wartości parametrów jak dla rys. 7.3. Ze względu na zbyt małą liczbę (8) iteracji 
algorytmu rełaksacji deterministycznej nie zostało osiągnięte lokalne minimum energii. Maski 
pierwsza i ostatnia przedstawione są w negatywie ze względu na niekompletność procesu ich 
detekcji, pierwsza to efekt wyłącznie korekcji a ostatnia wyłącznie predykcji. 


m a Fa 


Rys. 7.10: Maski obiektu ruchomego z sekwencji K, model LB, algorytm relaksacji determini 
stycznej, m; = —11, mą = m2 = —10 (estymowane), a? 225, (m, < ma). Maski pierwsza 
i ostatnia przedstawione są w negatywie ze względu na niekompletność procesu ich detekcji, 
pierwsza to efekt wyłącznie korekcji a ostatnia wyłącznie predykcji. 
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Rys. 7.11: Maski obiektu ruchomego z sekwencji K, model LB, algorytm relaksacji determi- 
nistycznej. m; = m, = 2.27 (estymowane), m2 = 20, o? = 225, (m? > my). Maski pierwsza 
i ostatnia przedstawione są w negatywie ze względu na niekompletność procesu ich detekcji, 
pierwsza to efekt wyłącznie korekcji a ostatnia wyłącznie predykcji. 


Rys. 7.12: Maski obiektu ruchomego z sekwencji K. model LB, algorytm relaksacji determini 
stycznej. m; = my = 2.27 (estymowane), m2 = mą = —10 (estymowane), o? = 2.25. (energia 
zgodności ma 100 krotnie większy udział w energii pola niż w sytuacji przedstawionej na rys.7.3) 
Maski pierwsza i ostatnia przedstawione są w negatywie ze względu na niekompletność procesu 


ich detekcji, pierwsza to efekt wyłącznie korekcji a ostatnia wyłącznie predykcji. 
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Tab. 7.2: Wpływ zmian parametrów modelu LB na wyniki detekcji masek obiektu ruchomego 
odpowiadających sekwencji L z rys. 6.3. Znaczenie poszczególnych kolumn jest identyczne jak 
dla tab. 7.1. 


oraz Bouthemy). Ważna jest wzajemna relacja tych dwóch parametrów. W przypadku 
sekwencji K okazało się, że musi być spełniony warunek m; > m. Dobór poziomu energii 
zgodności, tzn. wartości parametru o”, jeżeli korzysta się z idealnych masek zmian w 
obrazie. nie będzie miał większego wpływu na wynik detekcji. 


7.3 Badania eksperymentalne — sekwencje L,M,N 


Podobną serię eksperymentów przeprowadzono dla sekwencji L z rys. 6.3. Estymowane 
wartości parametrów mu i fi są identyczne dla sekwencji K i L. Rezultaty przeprowa- 
dzonych badań przedstawione są w tab. 7.2, a znalezione maski na rys. 7.13. Od razu 
widać, że wyniki otrzymane dla dokładnych wartości parametrów są niedobre. Algorytm 
relaksacji deterministycznej nawet po 25 iteracjach nie osiągnął minimum energii, cho- 
ciaż parametry modelu zostały wyestymowane korzystając z sekwencji niezaszumionej. 
Badania przeprowadzone przy różnych wartościach parametrów m, i mą sugerują, że w 
dobre wyniki uzyskiwane są, gdy m; < ma, tzn. przeciwnie niż w przypadku sekwencji 
K. Oczywiście zwiększanie udziału energii zgodności przy źle dobranych parametrach m; 
i mę prowadzi do ogromnych absurdów. 

Dla sekwencji M również przeprowadzono analogiczną serię eksperymentów. Rezul- 
taty poszukiwania masek, przy dokładnych estymatach parametrów, przedstawiono na 
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Rys. 7.13: Maski obiektu ruchomego z sekwencji L, model LB, algorytm relaksacji determini- 
stycznej, m; = mu; = 2.27 (estymowane), m? = mz = —10 (estymowane), a? = 225. Maski 
pierwsza i ostatnia przedstawione są w negatywie ze względu na niekompletność procesu ich 
detekcji, pierwsza to efekt wyłącznie korekcji a ostatnia wyłącznie predykcji. 


sa 


Rys. 7.14: Maski obiektu ruchomego z sekwencji M, model LB. algorytm relaksacji determi 
2 = 225. Maski 


nistycznej, m, = my —2.27 (estymowane), mą = m, 10 (estymowane), o 
pierwsza i ostatnia przedstawione są w negatywie ze względu na niekompletność procesu ich 


detekcji, pierwsza to efekt wyłącznie korekcji a ostatnia wyłącznie predykcji 
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Tab. 7.3: Wpływ zmian parametrów modelu LB na wyniki detekcji masek obiektu ruchomego 
odpowiadających sekwencji M z rys. 6.5. Znaczenie poszczególnych kolumn jest identyczne jak 
dla tab. 7.1. 


rys. 7.14, a wyniki całej serii eksperymentów w tab. 7.3. I znowu obliczone wartości 
parametrów mı i mą nie sprawdziły się. Podobnie jak dla sekwencji L, aby otrzymać 
akceptowalne wyniki, parametry muszą spełniać zależność m, > my. 

Analogicznie jak dla sekwencji K, L, M, przebadano użyteczność modelu LB dla se- 
kwencji N przedstawiającej obiekt, który jest zarówno jaśniejszy jak i ciemniejszy od tła. 
Znalezione maski obiektu ruchomego przedstawione są na rys. 7.15, a wyniki całej serii 
eksperymentów zebrano w tab. 7.4. Na postawie rys. 7.15 oraz tab 7.4 można dojść do 
wniosku, że w przypadku modelu LB trudno jest znaleźć tak dobre. jak np. dla sekwencji 
K, maski obiektu ruchomego, który jest zarówno jaśniejszy jaki i ciemniejszy od tła. 

W celu interpretacji otrzymanych wyników przeprowadźmy analizę co zachodzi lokal- 
nie w czasie działania algorytmu relaksacji deterministycznej. W pewnym uproszczeniu 
można powiedzieć, że energia zgodności decyduje o etykietach, gdy pozostałe składniki 
energii lokalnej są w równowadze. Nazwijmy przypadkiem przestrzennie obojętnym sy- 
tuację. w której czterech sąsiadów piksla ma przyporządkowaną etykietę przeciwną, niż 
cztery pozostałe. W takim przypadku przypisanie pikslowi dowolnej z dwóch etykiet nie 
spowoduje żadnej różnicy w wartości energii przestrzennej. Decydującą rolę musi odegrać 
suma energii czasowej i zgodności. Przeanalizujmy energię czasową. Jeżeli danemu pik- 
slowi odpowiada etykieta 0, = 1 maski zmian, co oznacza, że w danym pikslu wykryto 
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Rys. 7.15: Maski obiektu ruchomego z sekwencji N, model LB, algorytm relaksacji determini- 
stycznej, mı = mh, = 4.55 (estymowane), mz = ma = —20 (estymowane), g? = 225. Maski 
pierwsza i ostatnia przedstawione są w negatywie ze względu na niekompletność procesu ich 
detekcji, pierwsza to efekt wyłącznie korekcji a ostatnia wyłącznie predykcji. 


zmiany, to w takim przypadku istnieją dwie możliwości zaetykietowania danego piksla: 
(b, a) oraz (a, a), ale obie realizacje mają przypisane jednakowe wartości energii. Oznacza 
to, że decydującą rolę musi odegrać energia zgodności. 

Wg toku rozumowania przedstawionego w rozdziale 5.3 przy opisie nowego modelu 
realizacja (a, b) powinna być zastąpiona realizacją (a, a). Jednak w niektórych przypad- 
kach zamiast (a, a) przyporządkowywana jest realizacja (b, a). Pojawia się pytanie, jaki 
warunek musi spełniać energia zgodności, aby wykluczyć błędne przypisywanie etykiet 
(b,a)? Odpowiedź jest łatwo znaleźć, gdy mamy pewną wiedzę a priori o analizowanej 
sekwencji, szczególnie dotyczącą jasności tła i obiektu. Zacznijmy od sekwencji K, ale dla 
uproszczenia zapomnijmy o dodanym szumie. W sytuacjach, którym w rzeczywistości po- 
winna odpowiadać realizacja (a, b). różnica 0, ma zawsze wartość mniejszą do zera. Aby 
zapewnić większą wartość energii zgodności dla sytuacji przejściowej w stosunku do sy- 
tuacji (ruch, ruch) wystarczy, aby parametr m; > mą. Do takich wniosków też doszliśmy 
analizując wyniki eksperymentów przeprowadzonych dla sekwencji K. Różnice pomiędzy 
sytuacjami, gdy ten warunek jest spełniony, wynikają z obecności szumu o dużej wariancji 
dodanego do obrazu. 

W przypadku sekwencji L mamy do czynienia z odwrotną sytuacją, tzn. tam gdzie 
powinna być przyporządkowana realizacja (a,b) różnica 0, ma zawsze wartość dodatnią, 
czyli poprawne działanie algorytmu będzie miało miejsce, gdy m; < ma. Niestety estymaty 
Thy, Ma, które zostały obliczone poprzez zwykłe uśrednienie spełniają relację przeciwną. 
Stąd wynikają złe rezultaty przedstawione na rys. 7.13. 
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Tab. 7.4: Wpływ zmian parametrów modelu LB na wyniki detekcji masek obiektu ruchomego 


odpowiadających sekwencji N z rys. 6.7. Znaczenie poszczególnych kolumn jest identyczne jak 
dla tab. 7.1. 


Dla sekwencji M przyczyna znajdowania złych masek jest podobna jak dla sekwencji 
L, z tym, ze tym razem ox jest ujemne, a obliczone parametry muy i m spełniają relację 
my, < Mz. 

Na podstawie przeprowadzonego rozumowania można sformułować pewne ogólniejsze 
wnioski odnoszące się do modelu LB zastosowanego do detekcji ruchu. 


e Przyjęta postać energii zgodności U,,, ze względu na łączenie realizacji 
(a.b) oraz (b,a), oparta jest na zbyt dużym uproszczeniu modelowania. 


« Energia zgodności pełni rolę decydującą w sytuacjach przestrzennie obo- 
jętnych i czasowo niejednoznacznych (taka sama wartość energii przypo- 
rządkowana różnym, dopuszczalnym realizacjom kliki czasowej). 


e W celu poprawnego dobrania parametrów energii zgodności konieczna 
jest wiedza o wzajemnej relacji jasności tła i obiektu. 


e Przy użyciu modelu LB trudnym wydaje się znalezienie maski obiektu, 
który jest zarówno jaśniejszy jak i ciemniejszy od tła. 


Wyjaśnienia wymaga również zaobserwowane zjawisko, że w przypadku analizowa- 
nych sekwencji, algorytm relaksacji deterministycznej potrzebuje znacznie więcej iteracji 
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do osiągnięcia minimum energii przy przeglądaniu piksli po kodingach, niż przy przemia- 
taniu normalnym (kolumna po kolumnie, wiersz po wierszu). Fałszywe etykiety a przypi- 
sane podczas predykcji są usuwane w czasie korekcji dzięki energii zgodności. Z rozważań 
przeprowadzonych poprzednio wynika, że ma to miejsce szczególnie w sytuacjach prze- 
strzennie obojętnych, czyli krótko mówiąc na brzegach maski obiektu. W implementacji 
z normalnym przemiataniem piksli po wyrzuceniu piksla, który znajdował się w sytu- 
acji przestrzennie obojętnej, sąsiad najprawdopodobniej będzie znajdował się też w takiej 
sytuacji, czyli będzie kandydatem do wyrzucenia. Można powiedzieć, że następuje propa- 
gacja sytuacji przestrzennie obojętnej. W implementacji kodingowej niestety tego nie ma, 
a więc dochodzenie do minimum potrafi trwać nawet do 21 iteracji. 

Zaprezentowana powyżej seria eksperymentów zdaje się potwierdzać wniosek sformu- 
łowany w trakcie rozważań teoretycznych przedstawionych w rozdziale 5.3, że przypisanie 
w definicji energii zgodności jednego parametru realizacjom (a, b) oraz (b, a) powoduje wy- 
dłużenie czasu obliczeń, gdyż podczas predykcji przypisywanych jest wiele „fałszywych” 
etykiet, które następnie mozolnie muszą być usuwane podczas korekcji. 


Rozdział 8 


Badania eksperymentalne nowego 
modelu z dwuwymiarowym 
wektorem obserwacji 


W niniejszym rozdziale przedstawiono wyniki badań eksperymentalnych nowego modelu 
z dwuwymiarowym wektorem obserwacji. Eksperymenty przeprowadzono w sposób ana- 
logiczny do tych z rozdziału 7. Podstawowym celem przeprowadzonych badań była ocena 
użyteczności nowego modelu z dwuwymiarowym wektorem obserwacji do detekcji ma- 
sek obiektów ruchomych. Wykorzystanie identycznych sekwencji wejściowych jak w przy- 
padku modelu LB pozwoliło na porównanie wyników otrzymywanych przy użyciu obydwu 
modeli. 
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OR 


Rys. 8.1: Maski obiektu ruchomego znalezione dla sekwencji K - nowy model z dwuwymiaro- 
wym wektorem obserwacji, relaksacja deterministyczna. Parametry: m; = my = —27.73 (esty- 
mowane), mz = mą = 32.27 (estymowane), ma = m3 = —10 (estymowane), o? = 225. Maski 
pierwsza i ostatnia przedstawione są w negatywie ze względu na niekompletność procesu ich 
detekcji, pierwsza to efekt wyłącznie korekcji a ostatnia wyłącznie predykcji. 


8.1 Badania eksperymentalne — sekwencje K,L,M,N 


Dla zaproponowanego w niniejszej rozprawie nowego modelu z dwuwymiarowym wek- 
torem obserwacji przeprowadzono analogiczne serie eksperymentów jak dla modelu LB. 
Ponownie testom poddano sekwencje K, L, M, N. Wyestymowane dokładne wartości pa- 
rametrów m, mą oraz m przedstawiono w tab. 6.2. Również i w przypadku tych eks- 
perymentów wykorzystano idealne maski zmian w obrazie przedstawione na rys. 7.1, a 
korekcję maski pierwszej inicjowano idealną maską przedstawioną na rvs. 7.2. 

Podobnie jak dla modelu LB testowanie każdej sekwencji przeprowadzono w kilku eta- 
pach. Po pierwsze znaleziono maski przy estymowanych wartościach parametrów. Każdy 
następny etap polegał na zmianie jednego wybranego parametru w szerokim zakresie, gdy 
pozostałe parametry przyjmowały wartości estymowane. Etapy miały na celu zbadanie 
wrażliwości modelu na niepoprawną estymację poszczególnych parametrów. 

Wyniki badań przeprowadzonych dla sekwencji K, L, M, N zebrano w odpowiednio 
w tab. 8.1-8.4. Każda z analizowanych sekwencji jest inna, co w pełni odzwierciedlają 
estymowane wartościach parametrów mu, ma, mą. Dzięki temu oraz dzięki faktowi, że 
model dokładniej opisuje analizowane zjawisko, eksperymenty przeprowadzone w przy- 
padku każdej sekwencji, przy estymowanych wartościach parametrów, zakończyły się suk- 
cesem. Oznacza to, że znalezione maski wiernie odwzorowują poruszający się obiekt, por. 
rys. 8.1, 8.7, 8.8, 8.9 lub odpowiednie wiersze tab. 8.1-8.4, co nie zawsze miało miejsce 
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Tab. 8.1: Wpływ zmian parametrów nowego modelu z dwuwymiarowym wektorem obserwacji 
na wyniki detekcji masek obiektu ruchomego odpowiadających sekwencji K z rys. 6.1. Znaczenie 
poszczególnych kolumn jest identyczne jak dla tab. 7.1. 
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dla modelu LB. 


Porównując znalezione maski dla sekwencji K dzięki zastosowaniu modeli LB i nowego, 

por. rys. 7.3 oraz 8.1, można zauważyć, że maski znalezione dzięki modelowi proponowa- 
nemu w niniejszej rozprawie są lepszej jakości — trzy z czterech narożników obiektu wy- 
kryto poprawnie, co nigdy nie miało miejsca dla modelu LB. Ponadto rys. 8.2, 8.3, 8.4, 8.5, 
które są analogami rys. 7.4, 7.5, 7.6, 7.7, również świadczą o przewadze proponowanego 
modelu. Podczas predykcji wykrywanych jest mniej „fałszywych” etykiet a. Przyglądając 
się uważnie rys. 8.5, 8.4 można dojść do wniosku, że w przypadku nowego modelu naj- 
istotniejsze zmiany poszukiwanej maski dokonywane są w pierwszych dwóch lub trzech 
iteracjach w przypadku predykcji oraz pierwszej iteracji w przypadku korekcji, a to z ko- 
lei oznacza, że można ograniczyć liczbę iteracji algorytmu relaksacji deterministycznej, co 
nieznacznie tylko pogorszy znajdowaną maskę obiektu. 
Inną cechą przemawiającą na korzyść zaproponowanego modelu może być czas obli- 
czeń. Na rys. 8.6 w sposób analogiczny do rys. 7.8 przedstawione długości poszczególnych 
kroków metody poszukiwania maski ruchomego obiektu dla sekwencji K, przy wyestymo- 
wanych wartościach parametrów. Kryterium stopu było identyczne w przypadku obydwu 
modeli. Metoda korzystająca z nowego modelu z dwuwymiarowym wektorem obserwacji 
wymagała jedynie 56 iteracji do zakończenia detekcji ruchu dla całej sekwencji, tzn. o 35 
procent mniej niż przy użyciu modelu LB. Ponieważ jednak w przypadku nowego modelu 
wymagana jest większa liczba operacji dla obliczenia wartości energii lokalnej U;;, więc 
w efekcie czas obliczeń był tylko o około 10 procent krótszy niż dla modelu LB. Liczba 
iteracji pierwszego kroku metody jest większa dla nowego modelu niż dla modelu LB. 
Jednak o ogólnej liczbie iteracji wymaganych dla przeprowadzenia detekcji ruchu dla ca- 
łej sekwencji decydują przede wszystkim następne kroki, które są krótsze niż analogiczne 
kroki dla modelu LB. Analiza kolumn opisujących liczbę iteracji dla maski pierwszej i 
drugiej przedstawionych w tab. 8.1-8.4 oraz porównanie ich z odpowiednimi kolumnami z 
tab. 7.1-7.4 prowadzą do wniosku, że w najgorszym przypadku liczba iteracji dla obydwu 
modeli jest co najwyżej równa, natomiast w ogromnej większości przypadków jest prawie 
o 50 procent mniejsza na korzyść modelu nowego. Przyczyną tak znacznego zmniejsze- 
nia liczby wymaganych iteracji jest znacznie lepsza predykcja maski. W modelu LB w 
trakcie predykcji praktycznie jest otrzymywana maska zmian, co jest efektem dużej war- 
tości energii przypisanej realizacji (a,b). W nowym modelu takie zjawisko praktycznie 
nie występuje, por. rys. 8.4, 7.6. Ze względu na szum pewnym grupom piksli tła przypo- 
rządkowywane są fałszywe etykiety a, ale są one o wiele mniej liczne niż dla modelu LB. 
Ponieważ w przypadku nowego modelu przypisywanych jest podczas predykcji znacznie 
mniej błędnych etykiet. dlatego ich usuwanie podczas korekcji wymaga mniejszej liczby 
iteracji. 

Ocenę wrażliwości nowego modelu na zmianę wartości parametrów można przeprowa- 
dzić po przeanalizowaniu tab. 8.1-8.4. W przypadku parametru m, największe kłopoty 
pojawiają się gdy m, = mą. Dla sekwencji K, dla której estymowane wartości parametrów 
spełniają warunek m; < 73, najmniejszą dokładność detekcji otrzymuje się gdy m, <m 
Również liczba iteracji potrzebna do osiągnięcia minimum energii ma jedną z największych 
wartości gdy mı % mą. W przypadku sekwencji L oraz M sytuacja jest bardzo podobna, 
z tą różnicą. ze dla L estymowane parametry spełniają warunek th, > mą i w takiej sytu- 
acji najgorszy wynik detekcji otrzymywany jest gdy m,>m3. Wartość parametru m, ma 
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Rys. 8.2: Porównanie masek obiektu znalezionych jedynie po predykcji (lewo) a następnie popra- 
wionych w trakcie korekcji (prawo) dla sekwencji K, nowy model z dwuwymiarowym wektorem 
obserwacji. Wartości parametrów jak dla rys. 8.1 (estymowane). Maska nr 1 poddana została 
tylko korekcji, a maska nr 6 jedynie predykcji. 
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Tab. 8.2: Wpływ zmian parametrów nowego modelu z dwuwymiarowym wektorem obserwacji 
na wyniki detekcji masek obiektu ruchomego odpowiadających sekwencji L z rys. 6.3. Znaczenie 
poszczególnych kolumn jest identyczne jak dla tab. 7.1. 
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Tab. 8.3: Wpływ zmian parametrów nowego modelu z dwuwymiarowym wektorem obserwacji 
na wyniki detekcji masek obiektu ruchomego odpowiadających sekwencji M z rys. 6.5. Znaczenie 


poszczególnych kolumn jest identyczne jak dla tab. 7.1. 
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Tab. 8.4: Wpływ zmian parametrów nowego modelu z dwuwymiarowym wektorem obserwacji 
na wyniki detekcji masek obiektu ruchomego odpowiadających sekwencji N z rys. 6.7. Znaczenie 
poszczególnych kolumn jest identyczne jak dla tab. 7.1. 
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Rys. 8.3: Maski inicjujące predykcję masek odpowiadających obrazom 2-6 sekwencji K, znale- 
zione wg metody inicjacji przedstawionej w rozdziale 5.4, nowy model z dwuwymiarowym wek- 
torem obserwacji, algorytm relaksacji deterministycznej. Wartości parametrów jak dla rys. 8.1 
(estymowane). 


duży wpływ na liczbę wymaganych iteracji do osiągnięcia minimum energii, por. kolumna 
ka/pa tab. 8.1-8.4. O ile dobrana przypadkowo wartość parametru m, najczęściej nie zmie- 
nia znacząco jakości znajdowanych masek obiektu, o tyle liczba iteracji wymaganych do 
znalezienia rozwiązania optymalnego może się zmieniać nawet siedmiokrotnie. 

Wpływ parametru mą na dokładność znajdowanej maski jest podobny do wpływu 
parametru m, (jako dokładność maski rozumie tak jak poprzednio małe wartości statystyk 
~a oraz =b). Dla sekwencji K stosunkowo najgorsze rezultaty otrzymuje się, gdy mą < my 

pojawiają się nawet etykiety ruchu przypisane pikslom tła. Gdy mą = ma w przypadku 
tej sekwencji zwiększa się nieco liczba wymaganych iteracji. Dla sekwencji L oraz M 
czas obliczeń właściwie jest niezależny od wartości parametru m2. Traktując problem 
ogólniej, właściwie w przypadku każdej z analizowanych sekwencji K, L, M, N dokładność 
znalezionych masek nie zależy od wartości parametru m2, gdy tylko m, oraz m3 są dobrane 
poprawnie 

Najwrażliwszym wydaje się być proponowany model na wartość parametru mą | to 
praktycznie dla każdej z sekwencji testowych. Jak pokazały wyniki przeprowadzonych 
badań, wartość tego parametru może się zmieniać w niewielkim przedziale wokół wartości 
dokładnej. 

Parametr o? odpowiadający za procentowy udział energii zgodności względem ener- 
gii przestrzennej i czasowej ma praktycznie taki sam wpływ jak dla modelu LB. Dla 
żadnej z testowych sekwencji dziesięciokrotne zmniejszenie poziomu tej energii nie miało 
wpływu na dokładność przeprowadzanej detekcji. a stukrotne zwiększenie udziału tej ener- 
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Rys. 8.4: Kolejne iteracje wyniku predykcji maski obiektu odpowiadającej trzeciemu obrazowi 
sekwencji K, nowy model z dwuwymiarowym wektorem obserwacji, algorytm relaksacji deter- 
ministycznej. Wartości parametrów jak dla rvs. 8.1 (estymowane). 
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Rys. 8.5: Kolejne iteracje wyniku korekcji maski odpowiadającej drugiemu obrazowi sekwencji 
K, nowy model z dwuwymiarowym wektorem obserwacji, algorytm relaksacji deterministycznej. 
Wartości parametrów jak dla rys. 8.1 (estymowane). 
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Rys. 8.6: Rysunek obrazujący czas obliczeń wyrażony za pomocą liczby iteracji algorytmu re- 
laksacji deterministycznej, potrzebnych do znalezienia masek z rys. 8.1 — nowy model z dwu- 
wymiarowym wektorem obserwacji. Symbole k; oraz p; odnoszą się odpowiednio do korekcji i 
predykcji maski odpowiadającej i-temu obrazowi sekwencji K. Łączny czas obliczeń wynosi 56 


iteracji. który jest o 35 procent krótszy od czasu jaki wymagany jest przy korzystaniu z wersji 
podstawowej, por. rys. 7.8. 
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Rys. 8.7: Maski obiektu ruchomego z sekwencji L, nowy model z dwuwymiarowym wektorem 
obserwacji, algorytm relaksacji deterministycznej, m; = m; = 32.27 (estymowane), m2 = m = 
—27.73 (estymowane), m3 = m3 = —10 (estymowane), g? = 225. Maski pierwsza i ostatnia 
przedstawione są w negatywie ze względu na niekompletność procesu ich detekcji, pierwsza to 
efekt wyłącznie korekcji a ostatnia wyłącznie predykcji. 
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Rys. 8.8: Maski obiektu ruchomego z sekwencji M, nowy model z dwuwymiarowym wektorem 
obserwacji, algorytm relaksacji deterministycznej, m, = mı = —32.27 (estymowane), mą = 
mą = 27.73 (estymowane), mą = m2 = 10 (estymowane), a? = 225. Maski pierwsza i ostatnia 
przedstawione są w negatywie ze względu na niekompletność procesu ich detekcji, pierwsza to 
efekt wyłącznie korekcji a ostatnia wyłącznie predykcji. 
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Rys. 8.9: Maski obiektu ruchomego z sekwencji N, nowy model z dwuwymiarowym wektorem ob- 
serwacji, algorytm relaksacji deterministycznej, my = mh, = 4.55 (estymowane), m2 = mz = 4.55 
(estymowane), m3 = ™3 = —20 (estymowane), g? = 225. Maski pierwsza i ostatnia przedsta- 
wione są w negatywie ze względu na niekompletność procesu ich detekcji, pierwsza to efekt 
wyłącznie korekcji a ostatnia wyłącznie predykcji. 


gii zawsze prowadzi do absurdów. Jednak podniesienie poziomu energii dziesięciokrotnie w 
przypadku sekwencji K oraz L nieznacznie pogorszyło wykrywaną maskę, a dla sekwencji 
M tak samo nieznacznie ją poprawiło. 

O przewadze modelu zaproponowanego w niniejszej rozprawie w stosunku do modelu 
LB mogą również świadczyć znalezione maski obiektu, który jest zarówno ciemniejszy 
jak i jaśniejszy od tła (sekwencja N), por. rys. 8.9 oraz 7.15. Dzięki nowemu modelowi 
znalezione maski są pełniejsze. por. również tab. 8.4 i 7.4. 


8.2 Porównanie nowego modelu z dwuwymiarowym 
wektorem obserwacji z modelem LB 


Badania eksperymentalne, których wyniki przedstawiono w niniejszym rozdziale, poka- 
zały, że zarówno model Lalande'a i Bouthemy 'iego jak i nowy model z dwuwymiarowym 
wektorem obserwacji dobrze realizują cel, do którego zostały stworzone. W dużej licz- 
bie przypadków umożliwiają one znalezienie masek obiektu o dobrej jakości, nawet przy 
dużym poziomie szumu. 

Wyniki przeprowadzonych eksperymentów w pełni potwierdzają teoretyczne rozważa- 
nia z rozdziału 5.3, które stały się podstawą do stworzenia nowego modelu z dwuwymia- 
rowym wektorem obserwacji. 
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1. Model zaproponowany w niniejszej rozprawie łatwiej i dokładniej można dopasować 
do danych. 


2. W konsekwencji można otrzymać lepsze maski inicjujące predykcję, tzn. o mniejszej 
liczbie fałszywych etykiet. 


3. Dzięki lepiej przeprowadzonej predykcji zmniejsza się liczba iteracji algorytmu re- 
laksacji deterministycznej wymaganych do zakończenia z sukcesem detekcji maski 
obiektu ruchomego. 


4. Dzięki pełniejszemu dopasowaniu proponowanego modelu do analizowanej sekwencji 
wykrywane maski obiektu są lepszej jakości — trzy z czterech narożników kwadratu, 
których nigdy nie udało się wykryć przy pomocy modelu LB, są praktycznie zawsze 
znajdowane dzięki zastosowaniu nowego modelu. 


5. Skutkiem dokładniejszego modelowania, gdy tylko dostępna jest pewna wiedza a 
priori o jasnościach poruszającego się obiektu, jest możliwość łatwiejszego przepro- 
wadzenia identyfikacji parametrów nowego modelu. 


6. Metoda detekcji ruchu korzystająca z nowego modelu lepiej nadaje się dla sekwencji, 
w których jasność obiektu jest zarówno powyżej jak i poniżej jasności tła. 


Zalety nowego modelu wynikają przede wszystkim z dokładnego przeprowadzenia 
etapu jego budowy. Niewiele większa złożoność nowego modelu w stosunku do modelu 
LB ma pomijalne znaczenie, a korzyści, które można osiągnąć dzięki zastosowaniu tego 
modelu wydają się być istotne. Zastosowanie nowego modelu z dwuwymiarowym wekto- 
rem obserwacji zamiast modelu LB daje następujące korzyści: 


1. Estymacja parametrów modelu staje się łatwiejsza. 
2. Czas obliczeń ulega skróceniu. 


3. Zwiększa się dokładność znajdowanych masek obiektu, dzięki umożliwieniu znajdo- 
wania narożników należących do obiektu ruchomego. 


Dla porównania w dodatku zamieszczono wyniki podobnej serii eksperymentów dla 
modelu LB oraz nowego modelu z dwuwymiarowym wektorem obserwacji gdy jako ob- 
serwację przyjęto wartość bezwzględną różnicy jasności kolejnych obrazów. Ogólnie rzecz 
ujmując moduł różnicy jasności jest gorszym źródłem obserwacji niż sama różnica. Warto- 
ści poszczególnych parametrów bardzo się do siebie zbliżają, przez co dobór poprawnych 
wartości jest utrudniony. 


Rozdział 9 


Przykładowe wykorzystanie pól 
Markowa w detekcji i śledzeniu 
ruchu 


W niniejszym rozdziale przedstawiono przykłady zastosowania nowego modelu z dwuwy- 
miarowym wektorem obserwacji wprowadzonego w rozdziale 5 do przeprowadzenia detek- 
cji i śledzenia ruchu w przypadku rzeczywistych sekwencji obrazów. Szczegółowo omó- 
wiono zagadnienie doboru parametrów nowego modełu. Przedstawiono także sumacyjną 
metodę detekcji masek obiektu ruchomego. 
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9.1 Detekcja i śledzenie ruchu w przypadku sekwen- 
cji rzeczywistych 


Detekcja ruchu w przypadku sekwencji sztucznych wymaga jedynie przeprowadzenia dwóch 
etapów, tzn. znalezienia masek zmian w obrazie oraz przeprowadzenia właściwej detek- 
cji ruchu, tj. detekcji masek obiektu ruchomego. Drugi z wymienionych etapów polega 
przede wszystkim na odrzuceniu części piksli znalezionej wcześniej maski zmian tak, aby 
w przypadku konkretnej maski obiektu ruchomego pozostały tylko te piksle, które przed- 
stawiają ten obiekt (suma logiczna masek obiektu ruchomego odpowiadających dwóm 
kolejnym obrazom analizowanej sekwencji jest maską zmian zachodzących pomiędzy tymi 
obrazami). 

W przypadku sekwencji rzeczywistych liczba etapów musi jednak ulec zwiększeniu. 
Wyniki badań różnych detektorów zmian w obrazie, zamieszczone w rozdziale 4, pokazały 
bardzo duże zaszumienie masek znajdowanych przy pomocy różnych detektorów. Mani- 
pulując progami poszczególnych metod można zmniejszyć wpływ szumu, ale jednocze- 
śnie obszar przedstawiający zmiany spowodowane ruchem obiektów traci swoją spójność. 
Zarówno w przypadku modelu LB, jak i nowego modelu z dwuwymiarowym wektorem 
obserwacji, maska zmian w obrazie 0, pełni bardzo ważną rolę, por. wartości energii cza- 
sowej U;,, dla obydwu modeli, tzn. równania (5.6) oraz (5.14). Ewentualne braki w tej 
masce bezwarunkowo będą miały odbicie w znajdowanej masce obiektu. Z tego powodu w 
detekcji zmian trzeba mieć na uwadze spójność obszarów przedstawiających ruch. Dlatego 
koniecznym staje się często przefiltrowanie znalezionej maski zmian w obrazie. 

Ze względu na wykorzystanie we właściwej detekcji ruchu algorytmu relaksacji deter- 
ministycznej, który dochodzi jedynie do lokalnego minimum energii, niekiedy znalezione 
maski obiektu ruchomego mogą być w pewnym stopniu zaszumione. W takim przypadkach 
również one muszą zostać przefiltrowane. 

W konsekwencji detekcja i śledzenie ruchu dla sekwencji rzeczywistych wymagają prze- 
prowadzenia następujących czynności: 


1. detekcji zmian w obrazie, 

2. filtracji znalezionych masek zmian. 

3. właściwej detekcji ruchu, tj. detekcji masek obiektów ruchomych. 
4. filtracji znalezionych masek obiektów ruchomych. 


Detekcja zmian w obrazie została szczegółowo przedstawiona w rozdziałach 2.1. 4. Wła- 
ściwej detekcji ruchu poświęcono rozdziały 5, 7, 8. Filtracje masek zmian w obrazie oraz 
masek obiektów ruchomych sprowadzają się do filtracji obrazów binarnych. Z tego powodu 
obydwa etapy omówiono łącznie w rozdziale 9.2. 


9.2 Filtracja masek 


Zarówno filtracja masek zmian w obrazie jak i masek obiektów ruchomych przede 
wszystkim polega na usunięciu szumu, przy założeniu, że szum stanowią izolowane piksle. 
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Rys. 9.1: Maska zmian zachodzących pomiędzy obrazami 3 oraz 4 sekwencji A z rys. 4.1. Maskę 
tę najpierw znaleziono przy pomocy metody Hsu-Nagel-Rekers z kwadratowym modelem funkcji 
jasności (próg=50), por. rys. 4.6. Następnie została ona przefiltrowana metodami: kontur-wnę- 
trze (1,1), test mediany — okno 3 x 3 (1,2), test mediany - okno 5 x 5 (1,3), , filtr morfologiczny 
typu otwarcie-domknięcie z elementem strukturującym 3x3 (2,1), filtr morfologiczny typu otwar- 
cie-domknięcie z elementem strukturującym 5 x 5 (2,2), filtr morfologiczny typu otwarcie-do- 


mknięcie z czterema elementami strukturującymi (2,3). Numeracja zdjęć: A x T mi 5 a , 


Ponadto pożądaną cechą metody filtracji jest uzupełnianie niewielkich lokalnych braków 
masek. $ 


W przeprowadzonych badaniach wykorzystano trzy grupy metod: 

e prostą metodę kontur-wnętrze, 

e filtry medianowe o różnej wielkości okna testowego. 

e filtrację morfologiczną o jednym lub kilku elementach strukturujących [Nie92, Nie94). 


Metoda kontur-wnętrze polega na usuwaniu piksli. które ani nie należą do wnętrza. ani 
do konturu. przy czym przyjmuje się. że piksel należy do wnętrza, gdy jest zaetykietowany 
identycznie jak ośmiu jego sąsiadów. natomiast pikslem konturu jest ten. który ma w 
swoim otoczeniu zarówno piksle należące do tła jak i do wnętrza. Przy użyciu tej metody 
niewielkie braki maski nigdy nie będą wypełniane. a ponadto wszystkie „wąsy” o grubości 
1-2 piksli zostaną usunięte. 

W algorytmach filtracji medianowej dla obrazów binarnych danemu pikslowi przypisuje 
się taką etykietę, jaką ma większość z jego sąsiadów. W zależności od wielkości okna 
testowego otrzymuje się różne efekty filtracji. Skorzystanie z tej metody może doprowadzić 
do usunięcia niewielkich braków maski. 
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metoda 
kontur-wnętrze 


Rys. 9.2: Wyniki filtracji maski zmian (HNRkw próg=50) zachodzących pomiędzy obrazami 3 
oraz 4 sekwencji A, po nałożeniu na te obrazy. Efekt filtracji metodami: kontur-wnętrze (wiersz 
nr 1). test mediany - okno 3 x 3 (wiersz nr 2), test mediany - okno 5 x 5 (wiersz nr 3). 


http://rcin.org.pl 
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obraz nr 3 obraz nr 4 
sekwencji A sekwencji A 


filtr morfologiczny 
OC - 1 element 
strukturujacy 3 x 3 


filtr morfologiczny 
OC - 1 element 
strukturujacy 5 x 5 


filtr morfologiczny 
OC - 4 elementy 
strukturujące 


Rys. 9.3: Wyniki filtracji maski zmian (HNRkw próg=50) zachodzących pomiędzy obrazami 
3 oraz 4 sekwencji A. po nałożeniu na te obrazy. Efekt filtracji metodami: filtr morfologiczny 
typu otwarcie-domknięcie (OC) z elementem strukturującym 3 x 3 (wiersz nr 1), filtr morfo- 
logiczny typu otwarcie-domknięcie (OC) z elementem strukturującym 5 x 5 (wiersz nr 2), filtr 
morfologiczny typu otwarcie-domknięcie (OC) z czterema elementami strukturującymi (wiersz 
nr 3). 
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obiekt średnio jaśniejszy od tła 


ia aoe 
obiekt średnio ciemniejszy od tła + | - | 


Tab. 9.1: Zależność znaku parametrów m; oraz m2 modelu zaproponowanego w niniejsze roz- 
prawie do detekcji i śledzenie ruchu. 


Stosując operacje morfologiczne otwarcia i domknięcia, oraz odpowiednio dobran: ele- 
menty strukturujące, można przeprowadzać różne rodzaje filtracji. W ogólności metody 
opierające się na morfologii matematycznej umożliwiają filtrację lepszej jakości niż me- 
diana. 

Wybrane metody zastosowano do'poprawy jakości masek zmian z rys. 4.6 odpowada- 
jących sekwencji A z rys. 4.1. Wyniki eksperymentów przedstawiono na rys. 9.1-9.:. Na 
rys. 9.1 pokazano maskę zmian zachodzących pomiędzy obrazami 3 oraz 4 sekwengi A, 
przefiltrowaną sześcioma różnymi metodami. Na rys. 9.2, 9.3 kontur wszystkich maiek z 
rys. 9.1 nałożono na obrazy 3 oraz 4 sekwencji A. f 

Na podstawie przedstawionych wyników można stwierdzić, że najlepsze dla ok wy- 
gładzenie otrzymuje się za pomocą testu morfologicznego typu otwarcie-domknięcie OC) 
oraz testu mediany z oknem 5 x 5. Zupełnie dobre rezultaty można uzyskać również przy 
użyciu metody kontur-wnętrze. 


9.3 Dobór parametrów pola Markowa 


Detekcja ruchu przy wykorzystaniu sekwencji rzeczywistych oraz modelu zaproporowa- 
nego w niniejszej rozprawie wymaga przeprowadzenia identyfikacji tego modelu. Wartości 
większości parametrów dobrano w sposób heurystyczny. Za dopasowanie modelu do ana- 
lizowanej sekwencji odpowiadają parametry: mı, m2, m3 oraz a?. Na podstawie wyrików 
badań zamieszczonych w rozdziałach 7 oraz 8 można stwierdzić, że najmniej kłopotów 
sprawia znalezienie wartości parametru a”. Wartość jego nie ma praktycznie zacnego 
wpływu na efekt detekcji, jeśli tylko nie jest zbyt mała. Liczba 225 wydaje się być odpo- 
wiednia. 

O wiele większe trudności mogą wystąpić w przypadku parametrów odpowiadajacych 
za sytuacje przejściowe, tzn. m; oraz m2. Wartości tych parametrów w sposób iszotny 
zależą od relacji pomiędzy jasnością obiektu ruchomego i statycznego tła. a precyzyjniej 
tylko tej jego części. która jest zakrywana lub odkrywana przez poruszający się obiekt. 
Dysponując taką wiedzą a priori jak to. czy obiekt jest średnio jaśniejszy czy ciemniej- 
szy od tła, bez kłopotów można określić znak obydwu parametrów, co przedstawicno w 
tab. 9.1 

Załóżmy chwilowo, że ta część funkcji jasności, która odpowiada obiektowi ruchomemu, 
ma postać funkcji liniowej. W takim przypadku wartości parametrów m, oraz m zależą 
zarówno od relacji pomiędzy kierunkiem gradientu funkcji jasności obiektu i kierunkiem 
ruchu oraz od zmiany położenia obiektu w sąsiednich obrazach sekwencji. W tab. 9.2, 
9.3 przedstawiono wartości parametrów mı, mą dla kwadratu o liniowej funkcji jasności, 
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współczynnik nachylenia 
płaszczyzny jasności obiektu 


ZEE ALI ALEI Po [0 [os [mos Tr 2 fa 
NEM KMEWIENIEWIENIENIEMECJ 
—o_[-02]06-12| -25| 45 | -9 | —182 | -372] 
[20 | -06[-12|-25| -5 | -95 | -19 | -386 | -186 | 
Co _|-12]-25] 5 | -0|-95]-5|-73| - | 


Tab. 9.2: Zależność współczynnika m; nowego modelu z dwuwymiarowym wektorem obserwacji 
w przypadku sekwencji z poruszającym się kwadratem o liniowej funkcji jasności. Wartości 
parametru przedstawiono w funkcji wielkości przesunięcia tego obiektu wyrażonej w pikslach 
oraz tangesa kąta nachylenia funkcji jasności kwadratu. Kierunek ruchu jest zgodny z kierunkiem 
gradientu funkcji jasności. Minimalna jasność obiektu jest na poziomie tła. 


którego jasność zmienia się od poziomu tła do pewnej wartości maksymalmej (obiekt 
jaśniejszy do tła), gdy kierunek ruchu jest zgodny z kierunkiem gradientu funkcji jasności. 
Wartości tych współczynników podano w zależności od współczynnika nachylenia funkcji 
jasności obiektu oraz jego przesunięcia pomiędzy sąsiednimi obrazami (wyrażonego w 
pikslach). Podane wartości obliczono poprzez uśrednienie różnicy ox dla sytuacji (ruch,tło) 
i (tto,ruch). 

Z tab. 9.2, 9.3 można również korzystać przy określaniu dokładnych parametrów dla 
innych sekwencji z poruszającym się kwadratem o liniowo zmiennej jasności. W takich 
przypadkach należy kierować się dodatkowo następującymi regułami: 


e Gdy różnica pomiędzy minimalną jasnością obiektu i tłem jest różna od zera, wów- 
czas parametr o dodatniej wartości należy zwiększyć o tę różnicę, a parametr mniej- 
szy od zera odpowiednio zmniejszyć o taką samą wartość. 


e Jeżeli kwadrat porusza się w kierunku przeciwnym do kierunku gradientu funkcji 
jasności, wówczas wartości parametrów mı oraz mą zamieniają się ze sobą. 


e Zmiana relacji wzajemnej jasności tła i obiektu również powoduje zamianę wartości 
parametrów mm; oraz mą. 


Tab. 9.2. 9.3 mogą być również przydatne dla sekwencji rzeczywistych. Załóżmy, że 
obiekt jest średnio jaśniejszy od tła, jak np. w przypadku sekwencji A z rys. 4.1. Jeżeli 
lokalne przesunięcie obiektu nie jest zbyt duże (od kilku do kilkunastu piksli), to można 
przyjąć, że jasność przedniej części obiektu, tzn. tej jego części, która przykrywa tło, 
ma lokalnie charakter funkcji liniowej, zazwyczaj o kierunku gradientu przeciwnym do 
kierunku ruchu. Funkcja jasności przedniej części obiektu decyduje o wartości parametru 
mą. Aby określić jego wartość można skorzystać z tab. 9.2, zmieniając oczywiście znak. 
Tylna część obiektu, tzn. ta która odkrywa tło, decydująca o wartości parametru my, przy 
niewielkich przesunięciach też może być opisana funkcją liniową. ale o kierunku gradientu 
zgodnym z kierunkiem ruchu. Ponownie można skorzystać z tab. 9.2. 
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Tab. 9.3: Zależność współczynnika mą nowego modelu w przypadku sekwencji z poruszającym 
się kwadratem o liniowej funkcji jasności. Wartości parametru przedstawiono w funkcji wielkości 
przesunięcia tego obiektu wyrażonej w pikslach oraz tangesa kąta nachylenia funkcji jasności 
kwadratu. Kierunek ruchu jest zgodny z kierunkiem gradientu funkcji jasności. Minimalna ja- 
sność obiektu jest na poziomie tła. 


Określenie wartości parametru m3 może sprawić o wiele więcej kłopotu. Praktycznie 
niemożliwym jest skorzystanie z aproksymacji funkcjami o znanej postaci środkowej czę- 
ści obiektu. Jednocześnie badania, których wyniki zamieszczono w rozdziale 8, pokazały 
wrażliwość modelu proponowanego w niniejszej rozprawie na wartość parametru m3. Ana- 
lizując tab. 8.1-8.4 można zauważyć, że przyjmując m3 = 0 otrzymano zawsze algorytm 
stabilny. Można więc wysnuć wniosek, że właściwa wartość m3 znajduje się w okolicy zera. 
Precyzyjniejsze jej określenie wymaga jednak znajomości funkcji jasności obiektu rucho- 
mego. Ważną cechą parametru m; jest to, że jego wartość nie zależy od relacji pomiędzy 
jasnością tła i obiektu, a tylko od funkcji jasności samego obiektu. 


9.4 Wyniki eksperymentów 


Aby przeprowadzić detekcję ruchu dla sekwencji rzeczywistych koniecznym jest zna- 
lezienie maski inicjującej korekcję maski obiektu ruchomego odpowiadającej pierwszemu 
obrazowi analizowanej sekwencji. Nie dysponując pełną wiedzą a priori, nie można prak- 
tycznie takiej maski znaleźć. Korekcja maski dla pierwszego obrazu może jednak zostać 
zainicjowana maską zmian zachodzących pomiędzy obrazami pierwszym i drugim. We 
wszystkich eksperymentach. których rezultaty są prezentowane w niniejszym rozdziale. 
zastosowano taki właśnie sposób inicjacji korekcji maski odpowiadającej pierwszemu ob- 
razowi sekwencji. 

Po przeprowadzeniu detekcji dla całej sekwencji wejściowej, maski obiektu odpowiada- 
jące pierwszemu i ostatniemu obrazowi powinny zostać odrzucone, ze względu na niepełny 
proces ich otrzymywania. gdvz maska nr 1 poddawana jest jedynie korekcji, a maska ostat- 
nia tylko predykcji. Z tego powodu przy prezentacji wyników detekcji ruchu zrezygnowano 
z pokazywania masek obiektu odpowiadających pierwszemu oraz szóstemu obrazowi po- 
szczególnych sekwencji. 

Na rys. 9.5 pokazano sekwencję masek obiektu znalezionych przy pomocy modelu pro- 
ponowanego w niniejszej rozprawie. a odpowiadających obrazom 2-5 sekwencji A. Na 
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przefiltrowana maska obraz nr k obraz nr k + 1 
zmian dla obrazów a e 
Kawki sekwencji A sekwencji A 


Rys. 9.4: Maski zmian zachodzących między obrazami (2,3), (3,4) oraz (4.5) sekwencji A. zna- 
lezione przy użyciu metody HNRkw (próg=50), następnie poprawione filtrem morfologicznym 
typu otwarcie-domknięcie z elementem strukturującym 3 x 3. W pierwszej kolumnie pokazano ko- 
lejne maski zmian, a w kolumnach drugiej oraz trzeciej ich porównanie z odpowiednimi obrazami 
sekwencji A. 
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Rys. 9.5: Maski obiektu znalezione dla obrazów 2-5 sekwencji A (nowy model z dwuwymia- 
rowym wektorem obserwacji, parametry jak dla sekwencji K) nałożone na odpowiednie obrazy 
sekwencji A. Wykorzystano maski zmian z rys. 9.4. 


rys. 9.4 przedstawiono maski zmian, które zostały użyte do detekcji ruchu z rys. 9.5. Pa- 
rametry pola losowego zostały tak dobrane, aby wykryć obiekty jaśniejsze od tła. Z tego 
powodu najprawdopodobniej maski samochodu znajdującego się na pierwszym planie nie 
są spójne. Poza samochodem wykryty został również jego cień. W przypadku samochodu 
z drugiego planu właściwie wykryta została tylko tylna część samochodu. Przyczyną za- 
pewne jest bardzo mały kontrast pomiędzy jaśniejszą częścią tego samochodu a tłem. 
Nieruchomy samochód z trzeciego planu. w sposób zgodny ze stanem faktycznym, został 
zaliczony do statycznego tła. Poruszające się samochody na dalszych planach praktycznie 
w ogóle nie zostały znalezione, najprawdopodobniej ze względu na ich niewielkie rozmiary 
(wyrażone w pikslach). 


Na rys. 9.6 oraz 9.7 przedstawiono efekt detekcji ruchu dla sekwencji B. przy czym na 
rys. 9.6 pokazano maski znalezione. gdy wartości parametrów energii zgodności były takie 
jak dla sekwencji L (obiekt ciemniejszy od tła). a na rys. 9.7. gdy wartości parametrów 
były takie same jak w przypadku sekwencji N (poruszający się obiekt zarówno ciemniej- 
szy jak i jaśniejszy od tła). Na pierwszy rzut oka wydawać by się mogło, że samochód 
jest ciemniejszy od tła. Jednak dach tego samochodu. z powodu oświetlenia promieniami 
słonecznymi, jest jaśniejszy niż jezdnia. Z tego powodu maski z rys. 9.7 są lepszej jakości. 


Na rys. 9.8 przedstawiono efekt detekcji ruchu przeprowadzonej dla sekwencji C. War- 
tości parametrów przyjęto takie, jak dla sekwencji K. Ponownie detekcja ruchu zakończona 
została sukcesem. W przypadku większości masek, poza poruszającym się samochodem, 
został znaleziony również jego cień. 
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Rys. 9.6: Maski obiektu znalezione dla obrazów 2-5 sekwencji B (nowy model z dwuwymiarowym 
wektorem obserwacji, parametry jak dla sekwencji L (obiekt jest ciemniejszy od tła), nałożone 
na odpowiednie obrazy sekwencji B. Skorzystano z masek zmian otrzymanych przy pomocy 
metody HNRkw (próg=100), które zostały następnie przefiltrowane metodą kontur-wnętrze. 


Rys. 9.7: Maski obiektu znalezione dla obrazów 2-5 sekwencji B (nowy model z dwuwymiaro- 
wym wektorem obserwacji, parametry jak dla sekwencji N (obiekt jest zarówno ciemniejszy jak 
i jaśniejszy od tła). nałożone na odpowiednie obrazy sekwencji B. Skorzystano z masek zmian 
otrzymanych dzięki metodzie HNRkw (próg=100), które następnie przefiltrowano metodą kon- 
tur-wnętrze. 
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Rys. 9.8: Maski obiektu znalezione dla obrazów 2-5 sekwencji C (nowy model. parametry jak dla 
sekwencji K), nałożone na odpowiednie obrazy sekwencji C. Skorzystano z masek zmian otrzy- 
manych dzięki metodzie HNRkw (próg=50). które następnie poprawiono fikren morfologicznym 
typu otwarcie-domknięcie z elementem strukturującym 3 x 3 


9.5 Sumacyjna metoda detekcji maski obiektu ru- 
chomego 


Estymacja parametrów modelu zaproponowanego w niniejszej rozprawie w przypadku 
sekwencji rzeczywistych sprawia pewną trudność. Pewnym sposobem tozwiazanie tego 
problemu może być sumacyjna metoda detekcji maski obiektu ruchomec bedaca konse- 
kwencją następującego toku rozumowania. W przedstawionych w rozaziale 5 modelach 
korzystających z pól Markowa. maski obiektu są znajdowane na podstawie masek zmian 
W pewnym uproszczeniu można przyjąć. że w trakcie działania algorvtmu usuwane są 
z maski zmian te piksle, które nie należą do obiektu w danej chwili czasu Zle dobrane 
parametry energii zgodności mogą powodować jedyme wyrzucenie zbyt duzej liczby piksli. 
między innymi tych, które w rzeczywistości należą do obiektu ruchomego Przy różnych 
wartościach parametrów my. my. m4 różne piksle obiektu moga zostać n=unięte. Przepro- 
wadzając detekcję ruchu przy kilku zestawach parametrów. a następnie sumując znale- 
zione maski, można otrzymać maskę obiektu ruchomego. która będzie megorsza od masek 
składowych. 

Wykorzystanie sumacyjnej metody detekcji maski obiektu ruchomego wymaga wybra- 
nia kilku zestawów parametrów m, my. Jedną z możliwości jest zastosowanie zestawów 
parametrów dla obiektu o liniowo zmiennej funkcji jasności różniących sie relacją pomię- 
dzy jasnością tła i obiektu oraz relacją pomiędzy kierunkiem gradientu funkcji jasności a 
kierunkiem ruchu. 
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parametry parametry parametry 
jak dla jak dla jak dla suma masek 
sekwencji sekwencji sekwencji z kolumn 1-3 
K L M 


Rys. 9.9: Zastosowanie sumacyjnej metody detekcji maski obiektu ruchomego dla sekwencji A. 
W kolejnych wierszach przedstawiono maski obiektu odpowiadające obrazom 2-5 sekwencji A. 
W kolumnach 1-3 przedstawiono maski znalezione dzięki zastosowaniu modelu proponowanego 
w niniejszej rozprawie przy wartościach parametrów my. mą, m3 odpowiednio jak dla sekwencji 
K (kolumna pierwsza). L (kolumna druga). M (kolumna trzecia). W kolumnie czwartej przed- 
stawiano maskę obiektu będącą sumą masek z kolumn 1 3. 
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parametry parametry parametry 
jak dla jak dla jakdla - suma masek 
sekwencji — cji s cji z kolumn 1-3 


Rys. 9.10: Zastosowanie sumacyjnej metody detekcji maski obiektu ruchomego dla sekwencji C. 
W kolejnych wierszach przedstawiono maski obiektu odpowiadające obrazom 2-5 sekwencji C 
W kolumnach 1-3 przedstawiono maski znalezione dzięki zastosowaniu modelu proponowanego 
w niniejszej rozprawie przy wartościach parametrów mı, m2, m3 odpowiednio jak dla sekwencji 
K (kolumna pierwsza), L (kolumna druga), M (kolumna trzecia). W kolumnie czwartej przed- 
stawiano maskę obiektu będącą sumą masek z kolumn 1-3. 
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Rys. 9.11: Maski obiektu z rys. 9.9, znalezione przy pomocy metody sumacyjnej, przefiltrowane 
metodą kontur-wnętrze, a następnie nałożone na obrazy 2-5 sekwencji A. 


Rys. 9.12: Maski obiektu z rys. 9.10. znalezione przy pomocy metody sumacyjnej, przefiltrowane 
metodą kontur-wnętrze, a następnie nałożone na obrazy 2 5 sekwencji C. 
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Przykładowe wykorzystanie zaprezentowanej metody w przypadku sekwencji A przed- 
stawiono na rys. 9.9, 9.11, a przypadku sekwencji C na rys. 9.10, 9.12. Dla obydwu sekwen- 
cji przeprowadzono detekcję ruchu przy trzech zestawach parametrów my, mą, m3. Wyko- 
rzystano estymowane wartości parametrów znalezione dla sekwencji K, L, M. Rys. 9.9, 9.10 
przedstawiają maski obiektu odpowiadające obrazom 2-5 obydwu sekwencji, a rys. 9.11, 
9.12 pokazują sumacyjną maskę obiektu, przefiltrowaną metodą kontur-wnętrze, a następ- 
nie nałożoną na odpowiednie obrazy sekwencji A oraz C. 


Rozdział 10 


Ukryte pole Markowa z 
trójwymiarowym wektorem 
obserwacji, przeznaczone do 
detekcji masek obiektów ruchomych 


W rozdziale zaprezentowano model oparty na czasowo-przestrzennym polu Markowa, prze- 
znaczony do detekcji masek obiektów ruchomych. Najważniejszą cechą proponowanego 
ukrytego pola Markowa jest zastosowanie w nim trójwymiarowego wektora obserwacji o 
składowych: etykieta maski zmian zachodzących pomiędzy dwoma kolejnymi obrazami 
sekwencji, różnica jasności przyporządkowanych pikslowi w dwóch kolejnych obrazach 
sekwencji oraz wartość jasności w pikslu. Proponowany model pozwala, w czasie detek- 
cji maski obiektu ruchomego. na uzupełnianie ewentualnych niespójności masek zmian, 
mogących występować w przypadku pewnej grupy sekwencji rzeczywistych. W końcowej 
części rozdziału przedstawiono przykłady zastosowania nowego modelu. 
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10.1 Analiza ruchu obiektów o lokalnie stałej funkcji 
jasności 


Zarówno w modelu LB, jak również w nowym modelu z dwuwymiarowym wektorem 
obserwacji zaproponowanym w rozdziale 5, maska zmian w obrazie odgrywa bardzo istotną 
rolę. Bezsprzecznie świadczą o tym przyjęte w obydwu modelach wartości energii klik cza- 
sowych. Wyniki eksperymentów zamieszczone w rozdziale 4 pokazały, że detekcja spójnych 
masek zmian w obrazie sprawia ogromne trudności. Niespójność masek występuje przede 
wszystkim w tych obszarach, które w obydwu porównywanych obrazach sekwencji odpo- 
wiadają obiektowi ruchomemu, tzw. sytuacja (ruch, ruch), a ściślej gdy jasność obiektu w 
tych obszarach jest stała lub zbliżona do stałej. Z punktu widzenia komputerowej analizy 
ruchu sekwencje przedstawiające ruch takich obiektów są bardzo niewygodne. Przyczyną 
kłopotów jest praktycznie taka sama wartość lokalnej miary zmian, np. różnicy jasności, 
dla sytuacji (tło, tło) oraz (ruch, ruch). Przykłady „trudnych” sekwencji zaprezentowano 
na rys. 10.1 oraz 10.2. 

W sekwencji D z rys. 10.1 przedstawiono powolny ruch obrotowy wokół osi pionowej 
głowy modelki z lewej strony. W trakcie detekcji zmian praktycznie występuje tylko sy- 
tuacja (ruch, ruch). Dodatkowo dużą część poruszającej się głowy stanowi twarz, która 
w obrazie komputerowym przedstawiona jest za pomocą piksli o zbliżonych wartościach 
funkcji jasności. 

Sekwencja E z rys. 10.2 przedstawia ruch o charakterze translacji. Cechą charaktery- 
styczną poruszającego się obiektu są duże obszary o lokalnie stałej jasności. 

Na rys. 10.3, 10.4 pokazano maski zmian znalezione dla obydwu sekwencji za pomocą 
metody HNRlin. Maski zmian dla sekwencji D składają się z wielu „plam” — daleko im 
do tego co jest w stanie dostrzec oko ludzkie. W przypadku sekwencji E znalezione maski 
zmian są pełniejsze, ale ta ich część, która odpowiada sytuacji (ruch, ruch) jest niespójna. 

Wyniki detekcji ruchu przeprowadzonej dla obydwu sekwencji przy użyciu masek 
zmian z rys. 10.3, 10.4 pokazano na rys. 10.5, 10.6 dla sekwencji D oraz na rys. 10.7, 
10.8 dla sekwencji E. W przypadku sekwencji D zarówno model LB jak i nowy model 
z dwuwymiarowym wektorem obserwacji dają bardzo złe wyniki detekcji ruch obiektu. 
Maski obiektu znalezione dla sekwencji E mają wyraźne braki, zgodne z brakami zasto- 
sowanych masek zmian. 

W tym miejscu można zadać następujące pytanie: 


Czy możliwe jest. przy wykorzystaniu czasowo-przestrzennych pól Markowa. 
znalezienie masek obiektu ruchomego, w których uzupełnione byłyby braki za- 
stosowanych masek zmian? 


Odpowiedź jest twierdząca ale przy założeniu, że obserwacja wpływająca na 
ukryte pole Markowa ulegnie poszerzeniu. W przypadku sekwencji o stałej lub pra- 
wie stałej funkcji jasności obiektu, w celu poprawnego rozróżnienia pomiędzy sytuacjami 
(ruch, ruch) oraz (tło. tło), należy, poza różnicą jasności przyporządkowanych pikslowi w 
kolejnych obrazach sekwencji, dodatkowo wykorzystać jeszcze jasność danego piksla. Aby 
to dokładniej wyjaśnić załóżmy, że pewna sekwencja przedstawia ruch obiektu o stałej 
jasności, przy czym tło również ma stałą jasność. Dla takiej sekwencji różnica jasności dla 
sytuacji (ruch, ruch) oraz (tło, tło) jest równa zero, ale jasności tła i obiektu są różne. 
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Rys. 10.1: Sekwencja D przedstawiająca ruch obrotowy wokół pionowej osi głowy modelki sie- 
dzącej z lewej strony. 


Rvs. 10.2: Sekwencja E przedstawiająca ruch o charakterze translacji. 
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Rys. 10.3: Maski zmian zachodzących pomiędzy kolejnymi obrazami sekwencji D z rys. 10.1. 
Maski te znaleziono za pomocą metody HNRlin (próg=50). 


Rys. 10.4: Maski zmian zachodzących pomiędzy kolejnymi obrazami sekwencji E z rys. 10.2. 
Maski te zostały znalezione za pomocą metody HNRlin (próg=50). 
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Rys. 10.5: Maski obiektu ruchomego nałożone na odpowiednie obrazy sekwencji D, otrzymane 
dzięki zastosowaniu nowego modelu z dwuwymiarowym wektorem obserwacji, (m, = —21.3, 
m2 = 39.3, m3 = 2.4, a? = 225). Wykorzystano maski zmian z rys. 10.3. 


Rys. 10.6: Maski obiektu ruchomego nałożone na odpowiednie obrazy sekwencji D, otrzymane 
dzięki zastosowaniu modelu LB (m; = 9.1, m? = —2.4, a? = 225). Wykorzystano maski zmian 
z rys. 10.3. 
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Rys. 10.7: Maski obiektu ruchomego nałożone na odpowiednie obrazy sekwencji E, otrzymane 
dzięki zastosowaniu nowego modelu z dwuwymiarowym wektorem obserwacji, (mı = 124, m2 = 
—122, mz = —4, a? = 225). Wykorzystano maski zmian z rys. 10.4. 


Rys. 10.8: Maski obiektu ruchomego nałożone na odpowiednie obrazy sekwencji E, otrzymane 
dzięki zastosowaniu modelu LB (m; = —2.27, m2 = 10, o? = 225). Wykorzystano maski zmian 
z rys. 10.4. 
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W przypadku analizy ruchu bazującej na czasowo-przestrzennym ukrytym polu Markowa 
dodatkowe uwzględnienie jasności piksla jako źródła informacji prowadzi do powiększenia 
o jeden wymiaru wektora obserwacji wpływającej na rozkład pola ukrytego. W następnym 
rozdziale przedstawiono właśnie taki model. | 


10.2 Ukryte pole Markowa z trójwymiarowym wek- 
torem obserwacji 


Przystępując do budowy nowego pola Markowa należałoby udzielić odpowiedzi na wszyst- 
kie pytania, zgodnie z metodą wprowadzoną w rozdziale 3. W proponowanym poniżej 
modelu zakłada się, że dziedzina, zbiór stanów, typ, rząd, wyrażenie opisujące energię 
przestrzenną oraz wartości parametrów 8, i A, są identyczne jak w przypadku modelu 
LB, czy nowego modelu z dwuwymiarowym wektorem obserwacji z rozdziału 5. Bez zmian 
więc pozostaje również podział poszukiwania maski obiektu ruchomego na dwa etapy: na 
predykcję oraz korekcję. Proponowane zmiany dotyczą jedynie: 


1. wyrażenia opisującego energię zgodności, oraz 
2. tablicy określającej warunkową energię klik czasowych. 


W modelu wprowadzonym przez Lalande'a-Bouthemy'iego, jak również w modelu za- 
proponowanym w rozdziale 5, wykorzystano dwa źródła obserwacji wpływające na rozkład 
ukrytego pola Markowa: maskę zmian oraz różnicę jasności przyporządkowanej pojedyn- 
czemu piksłowi w kolejnych obrazach sekwencji. W obydwu modelach przyjęto, że ma- 
ska zmian 64 wpływa jedynie na energię czasową, natomiast wpływ różnicy jasności Ox 
uwzględniono w energii zgodności. 

W modelu proponowanym w niniejszym rozdziale zakłada się korzystanie z trzech 
źródeł obserwacji: 


1. maski zmian 0,(i, j) zachodzących pomiędzy obrazami o numerach kik + 1, 
2. różnicy oę(i, j) jasności piksla (i, 7) w obrazach k-tym oraz k + 1-szym, 
3. jasności fy(i,j) przyporządkowanej pikslowi (i, j) w obrazie k-tym. 


Tak jak w przypadku poprzednich modeli przyjmuje się, że maska zmian wpływa jedy- 
nie na energię czasową ukrytego pola Markowa. Zakłada sie, że obserwacje ox(i,J) oraz 
fk(i, j) tworzą dwuwymiarowy wektor, będący częścią trójwymiarowego wektora obserwa- 
cji. Wpływ takiego dwuwymiarowego wektora na energię ukrytego pola Markowa opisany 
jest pojedynczym składnikiem energii, zwanym, tak jak poprzednio, energią zgodności. 
Aby podać wyrażenie opisujące energię zgodności U;;, zdefiniujmy pomocniczą funkcję: 


[mo1, Mor, odi» Foz» Po] gdy (ex(i, j), Ek+1(i, 3)) = (b, b) 

(mir, M12, 074, ażą, pil” gdy (ex(t, j), ex+1(1,3)) = (a,b) 

[mai » M22, Oars od, pal” gdy (ex(i, 5); Ek+1(i, 3)) = (b, a) 

[ma , M32, 03, 730, Pa)” gdy (ex(i, j),ek+1(1,))) = a, 
ia 


wlex(i, j), €x+i(t,9)] = 
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przy czym: 


mo — Wartość Średnia różnicy jasności o, dla realizacji (b, b), 

™Mo2 — wartość Średnia jasności fą dla realizacji (b, b), 

aĝ, — wariancja różnicy jasności ox dla realizacji (b, b), 

og, — wariancja jasności f, dla realizacji (b, b), 

po — współczynnik korelacji różnicy ox i jasności f, dla realizacji (b, b), 
my, — wartość średnia różnicy jasności ox dla realizacji (a, b), 

mız- wartość średnia jasności f, dla realizacji (a, b), 

oł, — wariancja różnicy jasności oz dla realizacji (a, b), 

gł — wariancja jasności f, dla realizacji (a, b), 

p, — współczynnik korelacji różnicy ox i jasności f, dla realizacji (a, b), 
ma — wartość średnia różnicy jasności ox dla realizacji (b, a), 

M2 — wartość średnia jasności f, dla realizacji (b, a), 

o3, — wariancja różnicy jasności oz dla realizacji (b, a), 

o3, — wariancja jasności f, dla realizacji (b, a), 

pa — współczynnik korelacji różnicy o, i jasności f, dla realizacji (b,a), 
m3, — wartość średnia różnicy jasności o, dla realizacji (a, a), 

mz» — wartość średnia jasności f, dla realizacji (a, a), 

oł, — wariancja różnicy jasności o; dla realizacji (a, a), 

aż, — wariancja jasności f, dla realizacji (a, a), 

ps — współczynnik korelacji różnicy ox i jasności f, dla realizacji (a, a). 


Jest to funkcja wektorowa w odróżnieniu od analogicznych funkcji dla modeli z dwuwy- 
miarowymi wektorami obserwacji, gdzie funkcje te były funkcjami skalarnymi. 

Przyjmuje się, że rozkład prawdopodobieństwa zgodności realizacji pola Markowa 
(ek(i, j), x+1(i, J)) z obserwacją [ox(i, 7), fx(i,J)|” ma postać dwuwymiarowego rozkładu 
normalnego z parametrami (my, Mn, 0, oh, Pı)”, przy czym I jest równe albo 0, albo 
1, albo 2, albo 3. W takim przypadku lokalna energia zgodności opisana jest równa- 
niem [Mor90]: 


1 atoma) (ame) (ze) 
Ue ża (ZEG | | RZE JB ZE 
A 2(1 — p?) ( on ż on an z 


+ (Ae) = ze | (10.2) 


On 


Wymiar wektora parametrów energii zgodności ©, jest równy 20. 

Dzięki wprowadzeniu dodatkowego źródła obserwacji możliwa jest modyfikacja war- 
tości energii kliki czasowej przypisanej realizacji (a,a), gdy Ox(i,J) = 0, tzn. gdy nie 
wykryto zmian w pikslu (i,j). W przypadku sekwencji „trudnych” realizacja (a, a) po- 
winna mieć takie samo prawdopodobieństwo wystąpienia, gdy maska zmian w obrazach 
informuje o zachodzących zmianach (0x(i,7) = 1), jak i wtedy gdy zmiany nie zostały 
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wykryte (0k(i, 7) = 0). Zmodyfikowana energia czasowa ma postać: 


Usjełe(i, j), €k1(1,3) | li j), fli DT} = (10.3) 


przy czym: , stała większa od zera. Jako algorytm poszukiwania mody pola Markowa 
również proponuje się algorytm relaksacji deterministycznej. 


10.3 Przykłady zastosowania pola Markowa z trój- 
wymiarowym wektorem obserwacji do detekcji 
masek obiektów ruchomych 


Model wprowadzony w rozdziale 10.2 określony jest z dokładnością do 20 parametrów. 
Jest to o wiele więcej niż w przypadku modelu LB (3 parametry) czy nowego modelu 
z dwuwymiarowym wektorem obserwacji zaproponowanego w rozdziale 5 (4 parametry). 
Pojawia się pytanie jak przeprowadzić identyfikację takiego modelu? Przy tak dużej licz- 
bie parametrów raczej niemożliwym jest dobieranie ich wartości metodą prób i błędów. 
Wydaje się, że jedyną rozsądną metodą identyfikacji jest przeprowadzenie uczenia mo- 
delu. W przypadku ukrytego pola Markowa uczenie może być rozumiane w następująco: 
najpierw użytkownik musi przeprowadzić ręczną segmentację sekwencji trenującej, tzn. 
stworzyć, metodą zaznaczania pojedynczych piksli, binarną maskę obiektu ruchomego 
dla każdego obrazu sekwencji wejściowej. Następnie, mając dostępną sekwencję wejściową 
oraz znalezioną „ręcznie” sekwencję masek, obliczyć dla każdej z czterech możliwych re- 
alizacji (a, a), (a, b), (b, a) oraz (b,b) wartości średnie oraz wariancje z próby różnicy ox 1 
jasności f,, jak również współczynnik korelacji różnicy ox i jasności f,. Przedstawione es- 
tymaty są w przypadku dwuwymiarowego rozkładu normalnego estymatami największej 
wiarogodności [Mor90]. 

Za pomocą „uczenia modelu” znaleziono wartości parametrów dla sekwencji testowych 
z rys. 10.1 oraz 10.2. W przypadku sekwencji D parametry te wyniosły: 


mo = —0.05 Moz = 49.12 aĝ; = 38.93 o = 2534.91 pọ = —0.08 
my, = -21.28 my = 24.63 o? =273.06 gi, =264.28 p, = —0.85 
Ma = 39.3 mz = 17.8 03, = 1465.6 03, = 617.38 p= —0.43 
my = —2.37 my = 87.53}, = 1454.66 3, = 1797.26 pz = —0.41 


i] 


Ii 


Dla sekwencji E otrzymano: 


Mg, = 0.14 moz = 144.17 o}, = 2.09 o2, = 978.94 po = —0.18 
m = 123.88 my. = 28.24 g = 1265.62 oł, = 1268.94 p, = —0.9991 
mą = —121.65 mz: = 152.44  oż, = 1153.03 o% = 1.41 p = 0.05 
mą, = —4.03 me = 30.79 oj, = 2174.69 o2, = 1025.29 p, = —0.69. 
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Rys. 10.9: Maski obiektu ruchomego założone na odpowiednie obrazy sekwencji D, otrzymane 
dzięki zastosowaniu modelu z trójwymiarowym wektorem obserwacji, przy wykorzystaniu masek 
zmian z rys. 10.3. 


Rys. 10.10: Maski obiektu ruchomego nałożone na odpowiednie obrazy sekwencji E, otrzymane 
dzięki zastosowaniu modelu z trójwymiarowym wektorem obserwacji, przy wykorzystaniu masek 
zmian z rys. 10.4. 
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Następnie dla obydwu sekwencji testowych przeprowadzono przy użyciu modelu z trójwy- 
miarowym wektorem obserwacji detekcję masek obiektu ruchomego, stosując znalezione 
wartości parametrów. W obydwu przypadkach zastosowano te same maski zmian, jak 
w eksperymentach z modelami LB oraz nowym modelem z dwuwymiarowym wektorem 
obserwacji. 

Na rys. 10.9 przedstawiono maski obiektu znalezione dla sekwencji D, a na rys. 10.10 
maski obiektu znalezione dla sekwencji E. W przypadku obydwu sekwencji wyniki są 
rewelacyjne. Ogromna większość braków maski zmian w obrazie została uzupełniona, 
czego nigdy nie udało się uzyskać przy pomocy obydwu modeli z dwuwymiarowym wek- 
torem obserwacji. W przypadku sekwencji D wykryty został również obiekt statyczny, 
charakteryzujący się taką samą jasnością jak obiekt ruchomy. Nie należy się jednak temu 
dziwić, gdyż już w maskach zmian z rys. 10.3 zostały w tym miejscu wykryte zmiany, 
najprawdopodobniej spowodowane efektami oświetleniowymi. 


Rozdział 11 


Podsumowanie 
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PODSUMOWANIE 


11.1 Wnioski 


Wszystkie cele postawione na początku niniejszej rozprawy zostały zrealizowane. 


1. 


Nowy model statystyczny w dwuwymiarowym wektorem obserwacji, przeznaczony 
do detekcji masek obiektów ruchomych, został opracowany i zaprezentowany w roz- 
dziale 5. Cechą charakterystyczną tego modelu jest, tak jak założono we wstępie, 
uwzględnienie wszystkich możliwości etykietowania pojedynczego piksla. Dzięki tej 
właściwości model lepiej opisuje rzeczywistość, a więc łatwiej można go dopasować 
do danych wejściowych. 


. Model statystyczny z trójwymiarowym wektorem obserwacji został wprowadzony w 


rozdziale 10. Jest to pierwszy model statystyczny przeznaczonym do detekcji masek 
obiektów ruchomych, w którym wykorzystano trójwymiarowy wektor obserwacji. 
Największą zaletą zaproponowanego modelu jest to, że znajdowane są przy jego 
pomocy maski obiektów ruchomych o lepszej jakości, niż w przypadku modeli z 
dwuwymiarowym wektorem obserwacji. Zbudowany model pozwala na znajdowanie 
dobrych masek obiektów ruchomych nawet dla obiektów o lokalnie stałej funkcji 
jasności. Komputerowa analiza ruchu takich obiektów znanymi metodami sprawiała 
dotychczas wiele kłopotów. 


. Metoda budowy modeli statystycznych korzystających z pól Markowa została opra- 


cowana i przedstawiona w rozdziale 3. Użyteczność tej metody potwierdzono wy- 
korzystując ją do budowy dwóch nowych modeli przeznaczonych do detekcji masek 
obiektów ruchomych, tzn. nowego modelu z dwuwymiarowym wektorem obserwa- 
cji (rozdział 5) oraz modelu z trójwymiarowym wektorem obserwacji (rozdział 10). 
Niewątpliwą zaletą opracowanej metody jest jej ogólność. Stosując tę metodę można 
konstruować modele statystyczne przeznaczone do rozwiązywania różnych proble- 
mów komputerowej analizy obrazów. 


. Kryterium oceny dokładności masek obiektów ruchomych znajdowanych za pomocą 


metod statystycznych wprowadzono w rozdziale 6. Dzięki zaproponowanemu kry- 
terium możliwym stało się obiektywne porównanie różnych metod detekcji masek 
obiektów ruchomych. 


. Wyniki badań eksperymentalnvch modelu Lalande a-Bouthemy iego znanego z lite- 


ratury, potwierdzające użyteczność tego modelu do detekcji masek obiektów rucho- 
mych, przedstawiono w rozdziale 7. W szczególności na podstawie przeprowadzo- 
nych dla potrzeb niniejszej rozprawy badań (tab. 7.1, 7.2, 7.3. 7.4) stwierdzono. że 
w przypadku modelu zaproponowanego przez Lalande i Bouthemy iego 


e wartość parametru o? jest nieistotna. o ile tylko nie jest za mała. Dzięki temu 
można przyjąć jedną wartość tego parametru dla dużej grupy różnych czaso- 
wych sekwencji obrazów. 


e Wartości parametrów m, oraz mi nie mogą być estymowane metodą uśred- 
niania różnicy jasności dla sekwencji trenujących. 
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e Wartości parametrów mı, me nie są istotne, a liczy się tylko ich wzajemna 
relacja, tzn. który z nich jest większy. 


e Przy doborze wartości mı, mą należy kierować się informacją o wzajemnej 
relacji jasności poruszającego się obiektu i tła. 


6. Wyniki badań nowego modelu z obserwacją dwuwymiarową zamieszczone w roz- 
dziale 8 (tab. 8.1, 8.2, 8.3, 8.4) pozwoliły na stwierdzenie bardzo dużej użyteczności 
tego modelu do detekcji masek obiektów ruchomych. Okazało się, że estymacja para- 
metrów modelu, opierająca się na wartościach średnich różnicy jasności, w każdym 
przypadku daje poprawne wartości parametrów modelu, czyli estymacja parame- 
trów jest łatwiejsza niż w przypadku modelu znanego z literatury. 


. Kompleksowa metoda detekcji i śledzenia ruchu obiektów przedstawionych za po- 
mocą sekwencji obrazów z gradacją szarości została wprowadzona w rozdziale 9, a 
jej użyteczność potwierdziły zamieszczone tam wyniki badań eksperymentalnych. 


8. Metoda detekcji masek obiektów ruchomych za pomocą sumowania masek znaj- 
dowanych przy różnych wartościach parametrów pola Markowa, razem z przykła- 
dami świadczącymi o jej użyteczności, została zaprezentowana w rozdziale 9. Zaletą 
tej metody jest uniezależnienie, w dużym stopniu, detekcji masek obiektów rucho- 
mych od treści analizowanych sekwencji obrazów, dzięki stosowaniu kilku zestawów 
wybranych wcześniej parametrów. Praktyczne wykorzystanie tej metody znacznie 
zmniejsza uciążliwość etapu estymacji parametrów modelu. 


9. Modyfikacja znanego z literatury algorytmu relaksacji deterministycznej została 
opracowana a następnie opisana w rozdziale 5. Niewątpliwą zaletą proponowanej 
modyfikacji jest, w przypadku detekcji ruchu, 20-krotne skrócenie czasu obliczeń. 


10. Eksperymenty przedstawione w rozdziale 4, a mające na celu wybór optymalnego 
detektora zmian w obrazie, nie pozwoliły na jednoznaczny wybór takiego detek- 
tora. Okazało się, że większość algorytmów detekcji zmian czasowych prowadzi do 
porównywalnych rezultatów. Ubocznym efektem przeprowadzonych eksperymentów ` 
jest określenie kryteriów, którymi należy się kierować w trakcie detekcji zmian w 
obrazach, tak aby uzyskać maski zmian w obrazie o dobrych właściwościach. 


11. Pakiet programów do detekcji ruchu został stworzony, a jego opis zamieszczono w 
Dodatku B. 


Dzięki zrealizowaniu wszystkich zamierzonych celów bezsprzecznie można stwier- 
«dzić, że słuszność tezy rozprawy została wykazana, gdyż pokazano. że detekcja i 
śledzenie ruchu przeprowadzane przy użyciu czasowo-przestrzennego modelowania obra- 
zów moga być uefektywnione poprzez zmianę wyrażenia energii pola Markowa. Odpowied- 
nio dokonane zmiany wyrażenia energii znanego z literatury modelu opartego na ukrytych 
polach Markowa, stały się podstawą do zbudowania dwóch różnych modeli statystycznych, 
charakteryzujacych się lepszymi właściwościami niż model dotychczasowy. | tak: 


1. rozszerzenie wyrażenia energii, tak aby były uwzględnione wszystkie możliwości ety- 
kietowania piksla pozwoliło na: 
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e szybsze znajdowanie masek obiektu ruchomego, 
e detekcję dokładniejszych masek, 


e łatwiejszą estymację parametrów, tzn. metodą uśredniania na podstawie se- 
kwencji trenujących. 


2. rozszerzenie wyrażenia energii o dodatkowe źródło obserwacji umożliwiło uzupeł- 
nianie braków informacji, powstałych w trakcie detekcji zmian w obrazie. 


Zaprezentowana rozprawa niewątpliwie potwierdziła ogromną użyteczność statystycz- 
nych modeli pól Markowa do rozwiązywania zadań komputerowej analizy obrazów, a tym 
samym udowodniła, że rosnąca popularność tych modeli wśród badaczy zajmujących się 
wizją komputerową jest w pełni uzasadniona. . 


11.2 Kierunki dalszych badań 


Chociaż zaprezentowana rozprawa stanowi zamkniętą całość, to jednak nie zostały poru- 
szone w niej wszystkie problemy dotyczące wybranego podejścia do detekcji i śledzenia 
ruchu obiektów znajdujących się w polu widzenia kamery. Do przebadania pozostają na- 
stępujące zagadnienia: 
1. Przebadanie wpływu liczby modelowanych jednocześnie polem Markowa kolejnych 
obrazów sekwencji na dokładność znajdowanych masek obiektu ruchomego. 


2. Zwiększenie liczby klik czasowych w modelu sąsiedztwa pola Markowa opisującego 
rozkład etykiet a, b. 


3. Przebadanie parametrów energii zgodności modelu z trójwymiarowym wektorem 
obserwacji, w celu znalezienia tych, które mają niewielki wpływ na dokładność znaj- 
dowanych masek. 


4. Ocena wrażliwości modelu z trójwymiarowym wektorem obserwacji na wartości jego 
parametrów. 


Bibliografia 


[ABP92] 


[AKM93} 
[AN88] 
[AS92] 


[AT90] 


[Bes74] 
[Bes86] 
[BHM86] 


[BL90] 


[Bla90] 


[Bob86] 


[Bou89] 


O. Allagnat, J. M. Boucher, W. Pieczynski. Hidden Markov fields and unsu- 
pervised segmentation of images. In Proceedings of ICPR 92, The Hague, The 
Netherlands, September 1992. 


T. Aach, A. Kaup, R. Mester. Statistical model-based change detection in 
moving video. Signal Processing, 31:165-180, 1993. 


J. K. Aggarwal, N. Nadhakumar. On the computation of motion from sequences 
of images — a review. Proceedings of IEEE, 76(8):917-935, 1988. 


E. Antoniu, I. Sandau. On pros and cons of implementing '80s theory of edge 
detection. Machine Graphics 6 Vision, 1(1/2):255-260, 1992. 


J. Aloimonos, D. Tsakiris. Tracking in a complex visual enviroment. In Pro- 
ceedings of European Conference on Computer Viston, str. 249-258, Antibes, 
France, April 1990. Springer-Verlag. 


J. Besag. Spatial iteraction and the statisyical analysis of lattice systems. 
Journal of Royal Statistical Society series B, 36:192-236, 1974. 


J. Besag. On the statistical analysis of dirty pictures. Journal of Royal Stati- 
stical Society series B, 48:259-302, 1986. 


A. C. Bovic, T. S. Huang, D. C. Jr. Munson. Nonparametric tests for edge 
detection in noise. Pattern Recognition, 19(3):115-219, 1986. 


P. Bouthemy, P. Lalande. Detection and tracking of moving objects based on a 
statistical regularization method in space and time. In Proceedings of European 
Conference on Computer Vision, str. 307-311, Antibes, France. April 1990. 


J. M. Black. A model for the detection of motion over time. In Proceedings of 
International Conference on Computer Vision, Osaka, Japan, December 1990. 
IEEE Computer Society Press. 


D. Bobrowski. Probabilistyka w zastosowaniach technicznych. Wydawinctwa 
Naukowo- Techniczne. Warszawa, 1986. 


P. Bouthemy. A maximum likelihood framework for determining moving 
edges. IEEE Transactions on Pattern Analysis and Machine Intelligence, 
11(5):499-511. 1989. 


170 


[BPM93] 


[Can86] 
[Car92] 
(Cha88] 
[CJ83] 


[CSC+] 


[CSC+93] 


[CSN+94] 


[DA92] 


[DE87] 


[DNa2] 


[EG92] 


[EGK92] 


BIBLIOGRAFIA 


B. Braathen, W. Pieczynski, P. Masson. Global and local methods of unsupervi- 
sed Bayesian segmentation of images. Machine Graphics & Vision, 2(1):39-52, 
1993. 


J. Canny. A computational approach to edge detection. IEEE Transactions 
on Pattern Analysis and Machine Intelligence, 8(6):679-698, 1986. 


J. M. Carstensen. Description and Simulation of Visual Texture. PhD thesis, 
IMSOR, Lyngby Technical University, Denmark, 1992. 


B. Chalmond. Image restoration using an estimated Markov model. Signal 
Processing, 15(2):115-129, September 1988. 


G. R. Cross, A. K. Jain. Markov random fields texture models. JEEE Transac- 
tions on Pattern Analysis and Machine Intelligence, 5(1):25-39, January 1983. 


L. Chmielewski, M. Skłodowski, W. Cudny, M. Nieniewski, A. Kuriański, 
B. Michalski. Fringe image enhancing in the light wavelength stepping me- 
thod. Zgłoszony do publikacji w Machine Graphics & Vision. 


L. Chmielewski, M. Skłodowski, W. Cudny, M. Nieniewski, A. Kuriański, 
B. Michalski. Fringe image processing in the white light wavelength stepping 
method. Sprawozdanie z wykonania grantu KBN 8 8055 91 02, ZBS EPSILON, 
kwiecień 1993. 


L. Chmielewski, M. Skłodowski, M. Nieniewski, A. Kuriański, B. Michalski. 
Nonstandard methods of enhancing fringe images. In Proceedings of 5th MI- 
CROCOMPUTER School, str. 209-223, Zakopane, luty 1994. 


E. L. Dagless, A. T. Ali. Real-time vision-aided traffic monitoring. Applied 
Mathematics and Computer Science, 3(1):125-134, 1992. Proceedings of the 
ACEP Workshop, Borowice, Poland 1992. 


H. Derin, H. Elliott. Modeling and segmentation of noisy and textured ima- 
ges using Gibbs random fields. IEEE Transactions on Pattern Analysis and 
Machine Intelligence, 9(1):39-55, January 1987. 


L. Dreschler, H. H. Nagel. Volumetric model and 3d trajectory of a moving 
car derived from monocylar tv frame sequence of a street scene. Computer 
Graphics and Image Processing, 20:199-228, 1982. 


M. El-Gabali. Restoration of images corrupted by non-causal blur and noise 
using Markov random field model. In Proceedings of International AM SE Con- 
ference „Applications of Signals, Data, Systems Methodologies to Engineering 
Problems”, str. 37-48, Alexandria, Egypt, December 1992. 


M. El-Gabali, S. Khalaf. Efficient implementation of hierarchically ordered 
Markov random field models on single instruction multiple data machine ar- 
chitecture. In Proceedings of International AM SE Conference „Applications of 


BIBLIOGRAFIA 171 


[FB90a] 


[FB90b] 


[Fel68] 


[GG84] 


[GG91] 


[HB90a] 


[HB90b] 


(HJ83] 


[HMB91] 


[HNR84] 


[Hor89] 
[HS80] 


[Hwsi] 


(rr93] 


Signals, Data, Systems Methodologies to Engineering Problems”, str. 107-120, 
Alexandria, Egypt, December 1992. 


E. Francois, P. Bouthemy. Derivation of qualitative information in motion 
analysis. Image and Vision Computing, 8(4):279-287, November 1990. 


E. Francois, P. Bouthemy. Multiframe-based identification of mobile compo- 


nents of a scene with moving camera. Technical Report 1368, IRISA, December 
1990. 


W. Feller. An Introduction to Probability Theory and Its Applications, vo- 
lume 1. John Wiley & Sons Inc., New York, London, Sydney, 3d edition, 1968. 


S. Geman, D. Geman. Stochastic relaxation, Gibbs distributions and the Bay- 
esian restoration of images. IEEE Transactions on Pattern Analysis and Ma- 
chine Intelligence, 6(6):721-741, November 1984. 


D. Geiger, F. Girosi. Parallel and deterministic algorithms from MRF's: surface 
reconstruction. IEEE Transactions on Pattern Analysis and Machine Intelli- 
gence, 13:401-412, May 1991. 


F. Heitz, P. Bouthemy. Multimodal estimation of discontinuous optical flow 
using Markov random fields. Technical Report 561, IRISA, November 1990. 


F. Heitz, P. Bouthemy. Multimodal estimation of discontinuous optical flow 
using Markov random fields. In Proceedings of 10th International Conference 


on Pattern Recognition (Computer Vision Conference), Atlantic City, June 
1990. 


S. M. Haynes, R. Jain. Detecting of moving edges. Computer Vision Graphics 
and Image Processing, 21:345-367, 1983. 


F. Heitz, E. Memin, P. Bouthemy. Markov random fields models and paral- 
lel algorithms for 2D motion analysis. In Proceedings of 13th IMACS World 
Congress on Computation and Applied Mathematics, Dublin, July 1991. 


Y. Z. Hsu. H. H. Nagel. G. Rekers. New likelihood test method for change 
detection in image sequence. Computer Vision Graphics and Image Processing, 
26:13-106. 1984. 


B. K. P. Horn. Robot Vision. Mir. Moskwa. 1989. wydanie rosyjskie. 


M. Hassner. J. Sklanskv. The use of Markov random fields as models of texture. 
Computer Graphics and Image Processing, 12:357-370, 1980. 


R. M. Haralick, L. Watson. A facet model for image data. Computer Graphics 
and Image Processing. 15:113-129. 1981. 


P. Iliev, L. Tsekov. Motion detection using image histogram sequence analysis. 
Signal Processing, 30:373-384, 1993. 


172 


(Jai82] 
[Jar94] 


(Jin90] 


[JN90] 


[Jw91] 


[Kan80] 


[KD90] 


[KGV83] 
[KL86] 


[Kor93] 


[KR82] 


[KS93] 


[Kur] 


[Kur92] 


BIBLIOGRAFIA 


R. Jain. Segmentation of moving observer frame sequences. Pattern Recognition 
Letters, 1:115-120, 1982. 


J. Jarnicki. A probabilistic approach to image motion fields. In Proceedings of 
5th MICROCOMPUTER School, str. 35-42, Zakopane, luty 1994. 


K. Jinyu. Deterministic relaxation and simulated annealing for image resto- 
ration. In Proceedings of International Conference on Signal Processing, str. 
987-990, Beijing, China, October 1990. 


A. K. Jain, S. G. Nadabar. MRF model-based segmentation of range images. In 
Proceedings of International Conference on Computer Vision. IEEE Computer 
Society Press, December 1990. 


F. C. Jeng, J. W. Woods. Compound Gauss-Markov random fields for image 
estimation. IEEE Transactions on Signal Processing, 39(3):683-697, March 
1991. 


L. N. Kanal. Markov mesh models. Computer Graphics and Image Processing, 
12:683-697, 1980. 


J. Konrad, E. Dubois. A comparision of stochastic and deterministic solution 
methods in Bayesian estimation of 2-d motion. In Proceedings of European 
Conference on Computer Vision, Antibes, France, April 1990. Springer-Verlag. 


S. Krikpatrick, C. D. Jr. Gelatt, M. P. Vecchi. Optimization by simulated 
annealing. Science, 220(4595):671-688, May 1983. 


S. M. Kay, G. J. Lemay. Edge detection using the linear model. IEEE Trans- 
actions on Acoustics Sound and Signal Processing, 34(5):1221-1227, 1986. 


A. Korzyńska. Using Markovian models to the description of cells’ movement. 
In Proceedings of the American-Polish Workshop on Image Processing in Me- 
dicine and Biology, Warszawa, maj 1993. 


L. Kitchen, A. Rosenfeld. Grey-level corner detection. Pattern Recognition 
Letters, 1:95-102, 1982. 


A. Kuriański, M. Skłodowski. Enhancement of speckle images with the use 
of statistical hierarchical Markov field models. Machine Graphics & Vision. 
2(4):309-338, 1993. 


A. Kuriański. Pola Markowa w komputerowej analizie obrazów. Materiały // 
Krajowego Seminarium Metod Matematycznych Analizy Obrazów Prążkowych 
zorganizowane przez OC PTM, Częstochowa 26-27 marca 1993 - w druku. 


A. Kuriański. Time-varying corners in practical applications - discussion. Ma- 
chine Graphics & Vision, 1(3):527-536, 1992. 


BIBLIOGRAFIA 173 


[Kur93] 


[Lac87] 


[LB90] 


[LD89] 


[LHS87] 


[MAG88] 


[Mah91a] 


[Mah91b] 


[MB87] 


[MC93] 


[Mor90], 
[Nag82] 


[Nag83] 


[NB86] 


A. Kuriański. Improvement of edge images. In Proceedings of the International 
Workshop on Intelligent Robotic Systems '93, str. 234-243, Zakopane, lipiec 
1993. 


Lacroix. Pixel labeling in a second-order Markov mesh. Stgnal Processing, 
12(1):59-82, 1987. 


P. Lalande, P. Bouthemy. A statistical approach to the detection and trac- 
king of moving objects in an image sequence. In Proceedings of 5th ESPC 
EUSIPCO 90, Barcelona, September 1990. 


S. Lakshmanan, H. Derin. Simultaneous parameter estimation and segmenta- 
tion of Gibbs random fields using simulated annealing. IEEE Transactions on 
Pattern Analysis and Machine Intelligence, 11(8):799-813, August 1989. 


J. S. J. Lee, R. M. Haralick, L. G. Shapiro. Morphologic edge detection. IEEE 
Journal of Robotics and Automation, 3(2):142-156, April 1987. 


S. A. Mahmoud, M. S. Afifi, R. J. Green: Recognition and velocity computation 
of large moving objects in images. IEEE Transactions on Acoustics Sound and 
Signal Processing, 36:1790-1791, November 1988. 


S. A. Mahmoud. Motion analysis of multiple moving objects using Har- 
tley transform. IEEE Transactions on Systems, Man and Cybernetics, 
21(1):280-287, 1991. 


S. A. Mahmoud. A new technique for velocity estimation of large moving 
objects. IEEE Transactions on Signal Processing, 39(3):741-743, 1991. 


D. W. Murray, B. F. Buxton. Scene segmentation from visual motion using 
global optimization. IEEE Transactions on Pattern Analysis and Machine 
Intelligence, 9(2):220-228, March 1987. 


H. Mori, N. M. Charkari. Shadow and rhythm as sign patterns of obstacle de- 
tection. In Proceedings of IEEE International Symposium on Industrial Elec- 
tronics, str. 271-277, Budapest, Hungary, June 1993. 


D. F. Morrison. Wielowymiarowa analiza statystyczna. Państwowe Wydawnic- 
twa Naukowe, Warszawa. 1990. 


H. H. Nagel. On change detection and displacement vector estimation in image 
sequences. Pattern Recognition Letters, 1:55-59, 1982. 


H. H. Nagel. Displacement vectors derived from second-order intensity varia- 
tions in image sequences. Computer Vision Graphics and Image Processing. 
21:85-117, 1983. 


V.S. Nalwa, T. O. Binford. On detecting edges. IEEE Transactions on Pattern 
Analysis and Machine Intelligence, 8(6):699--714, 1986. 


174 


[Nie92] 


[Nie93] 


[Nie94] 


[NP90] 


[NP91] 


[Pac85] 
[Pav87] 
[Pie92a] 
[Pie92b] 


[Pom93] 


[por87] 
[Pra91] 
[QT] 


[RC92] 


[SJ84] 


BIBLIOGRAFIA 


M. Nieniewski. Statistical investigation of 2D morphological filters for image 
processing. Machine Graphics & Vision, 1(3):495-526, 1992. 


M. Nieniewski. Detekcja ruchu w obrazach sceny roboczej. Sprawozdanie z 
wykonania grantu KBN 8 8521 91 02 Zakład Badań Podstawowych Elektro- 
techniki MPiH i PAN w Instytucie Elektrotechniki, kwiecień 1993. 


M. Nieniewski. Mathematical morphology in image processing. In Proceedings 
of 5th MICROCOMPUTER School, str. 72-95, Zakopane, luty 1994. 


M. Nieniewski, P. Pathak. Change detection in image sequences using Walsh 
functions and the likelihood test method. In Proceedings of International Con- 
ference on Signal Processing, str. 995-998, Beijing, China, October 1990. 


M. Nieniewski, P. Pathak. Change detection in two images using Walsh func- 
tions and the likelihood test method. Engineering Transactions, 39(2):139-161, 
1991. 


A. Pacut. Prawdopodobieristwo Teoria Modelowanie w probabilistyce technicz- 
nej. Wydawinctwa Naukowo-Techniczne, Warszawa, 1985. 


T. Pavlidis. Grafika i przetwarzanie obrazów. Algorytmy. Wydawnictwa Na- 
ukowo- Techniczne, Warszawa, 1987. 


W. Pieczynski. Parameter estimation in the case of hidden data. In Proceedings 
of 16th Biennal Symposium on Communications, Kingston, Canada, May 1992. 


W. Pieczynski. Statistical image segmentation. Machine Graphics & Vision, 
1(1/2):261-281, 1992. 


D. A. Pomerleau. Input recognition reliability estimation. In Proceedings of 
the International Workshop on Intelligent Robotic Systems '93, str. 101-106, 
Zakopane, lipiec 1993. 


Poradnik inżyniera - matematyka tom 2. Wydawinctwa Naukowo-Techniczne, 
Warszawa, 1987. 


W. K. Pratt. Digital Image Processing. John Wiley & Sons, New York, 2d 
edition. 1991. 


Qian, Titterignton. Pixel labeling for three-dimensional scenes based on Mar- 
kov mesh models. Signal Processing, 22(3):313-328, March 1991. 


A. Rattarangsi, R. T. Chin. Scale-based detection of corners of planar cu- 
rves. IEEE Transactions on Pattern Analysis and Machine Intelligence, 
14(4):430-449, April 1992. 


A. M. Shan, R. Jain. Detecting time-varying corners. Computer Vision Gra- 
phics and Image Processing, 28:345-355, 1984. 


BIBLIOGRAFIA 175 


[SJ87] 


[SJ89] 


[Ś191] 


[SS90] 


[TF91] 
[TQD86] 


[Tru80] 


[Tsu93] 


[Vei91] 


[VP92] 


[WHA92] 


[Wrz93] 


[ZC90] 


[Zie90] 


I. K. Sethi, R. Jain. Finding trajectories of feature points in a monocular image 
squence. IEEE Transactions on Pattern Analysis and Machine Intelligence, 
9(1):56-73, 1987. 


K. Skifstad, R. Jain. Illumination independent change detection for real 
world image sequences. Computer Vision Graphics and Image Processing, 
46:387—399, 1989. 


A. Śluzek. Komputerowa analiza obrazów. Wydawnictwa Politechniki War- 
szawskiej, Warszawa, 1991. 


V. Salari, I. K. Sethi. Feature point corespondence in the presence of occlusion. 
IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(1):87-91, 
1990. 


R. Tadeusiewicz, M. Flasiński. Rozpoznawanie obrazów. Państwowe Wydaw- 
nictwa Naukowe, Warszawa, 1991. 


C. W. Therrien, T. F. Quatieri, D. E. Dudgeon. Statistical model-based algo- 
rithms for image analysis. Proceedings of IEEE, 74(4):532-551, April 1986. 


H. J. Trussel. The relationship between image restoration by the maximum 
a posteriori method and a maximum entropy method. [EEE Transactions on 
Acoustics Sound and Signal Processing, 28(1):114-117, February 1980. 


S. Tsugawa. Vision-based vehicles in japan: The machine vision systems and 
driving control systems. In Proceedings of IEEE International Symposium on 
Industrial Electronics, str. 278-285, Budapest, Hungary, June 1993. 


A. Veijanen. A simulation-based estimator for hidden Markov random 
fields. IEEE Transactions on Pattern Analysts and Machine Intelligence, 
13(8):825-830, August 1991. A ; 


A. Verri, T. Poggio. Motion field and optical flow: Qualitative properties. IEEE 
Transactions on Pattern Analysis and Machine Intelligence, 14(3):490-498, 
March 1992. 


J. Weng, T. S. Huang. N. Ahuja. Motion and structure from line coresponden- 
ces: Closed-form solution. uniqueness. and optimization. IEEE Transactions 
on Pattern Analysis and Machine Intelligence, 14(3):318-336. March 1992. 


A. Wrzoskowicz. Niejawne modele Markowa HMM w automatycznym rozpo- 
znawaniu mowy. Technical Report 32, IPPT PAN. Warszawa, 1993. 


J. Zerubia, R. Chellappa. Mean field annealing using compound Gauss-Markov 
fields for edge detection and image restoration. Technical Report 1295, INRIA, 
October 1990. 


R. Zieliński. Siedem wykładów wprowadzających do statystyki matematycznej. 
Państwowe Wydawnictwa Naukowe, Warszawa, 1990. 


Dodatek 


http://rcin.org.pl 


Dodatek A 


Moduł różnicy jako źródło 
obserwacji dla nowego modelu z 
dwuwymiarowym wektorem 
obserwacji oraz modelu LB 


W rozdziale przedstawiono wyniki badań analogicznych do tych z rozdziałów 7 i 8, ale 
jako obserwację przyjęto moduł różnicy jasności piksla w kolejnych obrazach sekwencji, 
a nie jak poprzednio samą różnicę. Skorzystanie z absolutnej wartości różnicy jasności 
powoduje ograniczenie informacji, ponieważ tracona jest wiedza o kierunku zmian jakie 
zachodzą pomiędzy kolejnymi obrazami analizowanej sekwencji. 
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A.1 Badania modelu LB 


Przyjmując moduł różnicy jasności jako obserwację, przeprowadzono cztery serie ekspe- 
rymentów, po jednej dla każdej z sekwencji K, L, M, N. Wartości parametrów m, oraz 
ma estymowano w analogiczny sposób jak te z rozdziału 6. Okazało się, że w przypadku 
sekwencji K, L, M znalezione wartości parametrów m;, m2 są identyczne. Wyniki ekspe- 


rymentów zebrano w tab. A.1-A.4. 
a] MASKA 1 UWAGI 
EJEA KERETA 


man} KERSEN KREACE fae 


mpc = 05 


121/21 [ma > mi 
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KIE LALE 
Ls no | srs |-6 | sem || 0] 
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Tab. A.1: Wpływ zmian parametrów modelu LB na wyniki detekcji masek obiektu ruchomego 
dla sekwencji K z rys. 6.1. Obserwacją moduł różnicy jasności, a nie jak w tab. 7.1 różnica 
jasności. Znaczenie kolumn identyczne jak dla tab. 7.1. 


Dla sekwencji K oraz N otrzymano całkiem dobre rezultaty przy estymowanych war- 
tościach parametrów. 


A.2 Badania nowego modelu z dwuwymiarowym 
wektorem obserwacji 
Dla nowego modelu przeprowadzono również serię eksperymentów przyjmując jako obser- 


wację moduł różnicy jasności. Pełne rezultaty badań dla sekwencji K, L, M, N przedsta- 
wiono w tab. A.5-A.8. 
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Tab. A.2: Wpływ zmian parametrów modelu LB na wyniki detekcji masek obiektu ruchomego 
dla sekwencji L z rys. 6.3. Obserwacją moduł różnicy jasności, a nie jak w tab. 7.2 różnica 
jasności. Znaczenie kolumn identyczne jak dla tab. 7.1. 
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Tab. A.3: Wpływ zmian parametrów modelu LB na wyniki detekcji masek obiektu ruchomego 
dla sekwencji M z rys. 6.5. Obserwacją moduł różnicy jasności. a nie jak w tab. 7.3 różnica 
jasności. Znaczenie kolumn identyczne jak dla tab. 7.1. 
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Tab. A.4: Wpływ zmian parametrów modelu LB na wyniki detekcji masek obiektu ruchomego 
dla sekwencji N z rys. 6.7. Obserwacją moduł różnicy jasności, a nie jak w tab. 7.4 różnica 
jasności. Znaczenie kolumn identyczne jak dla tab. 7.1. 
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Tab. A.5: Wpływ zmian parametrów nowego modelu z dwuwymiarowym wektorem obserwacji 
na wyniki detekcji masek obiektu ruchomego dla sekwencji K z rys. 6.1. Obserwacją moduł 
różnicy jasności, a nie jak w tab. 7.1 różnica jasności. Znaczenie kolumn identyczne jak dla 
tab. 7.1. 
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Tab. A.6: Wpływ zmian parametrów nowego modelu z dwuwymiarowym wektorem obserwacji 
na wyniki detekcji masek obiektu ruchomego dla sekwencji L z rys. 6.3. Obserwacją moduł 
różnicy jasności, a nie jak w tab. 7.2 różnica jasności. Znaczenie kolumn identyczne jak dla 
tab. 7.1. 
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Tab. A.7: Wpływ zmian parametrów nowego modelu z dwuwymiarowym wektorem obserwacji 
na wyniki detekcji masek obiektu ruchomego dla sekwencji M z rys. 6.5. Obserwacją moduł 
różnicy jasności, a nie jak w tab. 7.3 różnica jasności. Znaczenie kolumn identyczne jak dla 
tab. 7.1. 
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Tab. A.8: Wpływ zmian parametrów nowego modelu z dwuwymiarowym wektorem obse erwacji 
na wyniki detekcji masek obiektu ruchomego dla sekwencji N z rys. 6.7. Obserwacją moduł 
różnicy jasności. a nie jak w tab. 74 rožnica jasności. Znaczenie kolumn identyczne jak dla 
tab. 1.1 
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Dla sekwencji K, przy estymowanych wartościach parametrów, otrzymano złe rezul- 
taty, przeciwnie niż w przypadku sekwencji L oraz M. Niestety model stał się bardzo wraż- 
liwy na wartości parametru mı. Jednocześnie wzrosła wrażliwość na wartość parametru 
m3. W przypadku sekwencji L wpływ parametru m, jest niezauważalny, dla sekwencji 
M akceptowalny, a dla sekwencji K praktycznie całkowicie negatywny. W przypadku pa- 
rametru g? odpowiadającego za poziom energii zgodności, zastosowanie jako obserwacji 
modułu różnicy jasności nie wprowadziło praktycznie żadnych zmian. Jeśli tylko model, 
przy estymowanych wartościach parametrów, pozwalał na znalezienie stabilnego rozwią- 
zania, to zmiany parametru a? o rząd wielkości praktycznie nie mają żadnego wpływu. 


Dodatek B 


Opis pakietu programów do detekcji 
ruchu 


Chęć przeprowadzenia badań modelu Lalande'a-Bouthemy'iego oraz nowych modeli za- 
proponowanych w rozdziałach 5, 10 stworzyła konieczność opracowania pakietu progra- 
mów do przetwarzania obrazów, przeznaczonego do detekcji masek obiektów ruchomych. 
W niniejszym dodatku opisana jest koncepcja oraz podstawowe założenia poszczególnych 
programów pakietu. Dość szczegółowo opisano sposób wymiany informacji pomiędzy pro- 
gramami. 
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B.1 Koncepcja pakietu 


Metody detekcji i śledzenia ruchu (detekcji masek obiektu ruchomego) omawiane w ni- 
niejszej rozprawie składają się z dwóch zasadniczych etapów, a mianowicie: 


e detekcji maski zmian zachodzących pomiędzy dwoma kolejnymi obrazami sekwencji, 
e właściwej detekcji maski poruszającego się obiektu. 


Przeprowadzone eksperymenty pokazały, że w przypadku sekwencji rzeczywistych dodat- 
kowo konieczna jest filtracja masek zmian oraz znalezionych masek poruszającego się 
obiektu. 

Detekcję zmian zachodzących pomiędzy kolejnymi obrazami sekwencji umożliwia pro- 
gram CHANGE. Wstępną filtrację masek zmian w obrazie i ostateczną filtrację masek 
obiektu można przeprowadzić za pomocą programu MEDIAN lub programu BINFILTR. 
Do znajdowanie masek obiektów ruchomych służą: program JCM, będący implementacją 
metody opartej na modelu LB, program ICM2, którego algorytm poszukiwania masek 
obiektu ruchomego korzysta z nowego modelu z dwuwymiarowym wektorem obserwacji, 
zaproponowanego w rozdziale 5 oraz program ICM4 będący implementacją metody korzy- 
stającej z wprowadzonego w rozdziale 10 modelu z trójwymiarowym wektorem obserwacji. 

Poza wymienionymi programami powstał kilka programów pomocniczych takich jak 
GREY2MSK — pomagający użytkownikowi w ręcznym znajdowaniu maski obiektów ru- 
chomych, SHOW_CON — nakładający obrys znalezionej maski binarnej na źródłowy obraz 
z gradacją szarości oraz GAUSS2D znajdujący wartości parametrów dwuwymiarowych 
rozkładów normalnych — rozkładów zgodności dla programu JCM4. 


B.2 Pliki tekstowe używane do wymiany informacji 
pomiędzy programami 

W pakiecie używane są pliki tekstowe o dwóch różnych formatach. 

Format 1 służy do opisu przetwarzanej sekwencji. W pierwszym wierszu umieszczana 

jest długość sekwencji. W kolejnych wierszach wymienione są nazwy kolejnych obrazów 


sekwencji. Oczywistą konsekwencją jest to, że liczba wierszy w takim pliku zależy od 
długości sekwencji. 


Format 2 odnosi się do pliku parametrów pola Markowa. Ponieważ badania detekcji 
ruchu zostały zainspirowane pracami Lalande'a-Bouthemy ego, parametry modelu są zbli- 
żone do tych zaprezentowanych w literaturze, jednak z wieloma rozszerzeniami. Wszystkie 
parametry pola losowego używanego do detekcji ruchu można podzielić na trzy grupy: 


e parametry energii przestrzennej, 
e parametry energii czasowej, 


e parametry energii zgodności. 
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Ponieważ przyjęto rząd pola Markowa równy 2, więc istnieją cztery rodzaje klik dwupik- 
slowych. Uwaga, dla potrzeb systemu komputerowego kliki dwupikslowe zostały 
ponumerowane w następujący sposób: 


— nr0 of aa | =? NIE 


Cztery pierwsze wiersze pliku parametrów są przeznaczone na bezwzględne wartości 
parametrów 8, dla kolejnych klik od 0 do 3; dla modelu LB w pliku parametrów należy 
w czterech kolejnych wierszach wpisać te same liczby. 

Następnych osiem wierszy to parametry energii czasowej. Energia czasowa ma postać 
energii warunkowej w zależności od etykiety maski zmian 54. W pliku parametrów należy 
więc podać w przedstawionej poniżej kolejności wartości energii dla poszczególnych reali- 
zacji: 

. — (b,b,0), 
. — (b,b, 1), 
. — (a,b,0), 
O (a, b, 1), 
. — (b, a, 0), 
. — (b,a, 1), 
. — (a,a,0), 
8. - (a,a,1), 


sanane 


przy czym: 0 - brak zmian, 1 — zmiany są. 

Kolejne wiersze to parametry energii zgodności. Liczba tych parametrów zależy od 
wersji modelu. W modelu LB realizacjom (a,b) oraz (b,a) odpowiada jeden parametr 
energii zgodności (wersja 1.0 algorytmu — program ICM). W wersji 2.0 (program ICM2) 
realizacje (a, b) i (b, a) są rozróżniane, a to powoduje, że pliki parametrów programów 
implementujących poszczególne wersje algorytmów nie są wymienne. W wersji 
4.0 (program ICM4) liczba parametrów energii zgodności jest znacznie większa, dlatego 
plik z parametrami jest dłuższy. 

Poniżej przedstawiono kolejność parametrów energii zgodności dla wersji 1.0, tzn. dla 
metody opartej na modelu LB: 


mo - wartość średnia dla realizacji (b. b). 

09 -~ wariancja dla realizacji (b, b), 

m, ~ wartość średnia dla realizacji (a,b) oraz (b.a), 
gy ~ wariancja dla realizacji (a,b) oraz (b.a). 

my - wartość średnia dla realizacji (a. a). 

a3 - wariancja dla realizacji (a, a). 


Jeżeli, tak jak zostało to przedstawione w rozdziale 5. używany jest jeden parametr o”, to 
w wierszach odpowiadającym parametrom og, a? oraz aż należy wpisać tę samą wartość. 
UWAGA w pracach [BL90, LB90] parametry m, i mz są ze sobą zamienione. 
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Poniżej przedstawiono wartość parametrów energii zgodności dla wersji 2.0, tzn. dla 
metody opartej na nowym modelu z dwuwymiarowym wektorem obserwacji: 


mę — wartość średnia dla realizacji (b, b), 
og - wariancja dla realizacji (b, b), 
m, — wartość średnia dla realizacji (a, b), 
o; — wariancja dla realizacji (a, b), 
m2 — wartość średnia dla realizacji (b, a), 
o3 — wariancja dla realizacji (b, a), 
ma — wartość średnia dla realizacji (a, a), 
a3 — wariancja dla realizacji (a, a). 


Ponownie, jeżeli, tak jak zostało to przedstawione w rozdziale 5, używany jest jeden pa- 
rametr g°, to wierszach odpowiadającym parametrom g$, 0?, oż oraz oż należy wpisać tę 
samą wartość. 


Poniżej przedstawiono wartość parametrów zgodności dla wersji 4.0, tzn. dla metody 
opartej na modelu z trójwymiarowym wektorem obserwacji: 


Me: — wartość średnia różnicy o, dla realizacji (b, b), 
Moz- wartość średnia jasności f, dla realizacji (b, b), 
aĝ, — wariancja różnicy oz dla realizacji (b, b), 

og, — wariancja jasności f, dla realizacji (b, b), 

po — współczynnik korelacji o, z f, dla realizacji (b,b), 
mıı — wartość średnia różnicy o, dla realizacji (a, b), 
mız- wartość Średnia jasności f, dla realizacji (a, b), 
gł, — wariancja różnicy ox dla realizacji (a, b), 

oj, — wariancja jasności fą dla realizacji (a, b), 

pı — współczynnik korelacji o, z f, dla realizacji (a, b), 
M2, — wartość Średnia różnicy o, dla realizacji (b, a), 
M22 - wartość Średnia jasności f, dla realizacji (b, a), 
o3, — wariancja różnicy ox dla realizacji (b, a), 

03) - wariancja jasności f, dla realizacji (b, a), 

pa ~ współczynnik korelacji ox z fę dla realizacji (b, a), 
m3, - wartość średnia różnicy ox dla realizacji (a, a), 
m2 — wartość średnia jasności f, dla realizacji (a, a), 
oj, - wariancja różnicy ox dla realizacji (a, a), 

03) — wariancja jasności f, dla realizacji (a, a). 

p3 - współczynnik korelacji o, z f, dla realizacji (a, a). 


Wszystkie pliki tekstowe używane bądź tworzone przez poszczególne programy pakietu 
mają na sztywno określone nazwy. a mianowicie: 


e LISTA.LST plik opisujący wejściową sekwencję obrazów z gradacją szarości, przed- 
stawiającą ruchomy obiekt - format 1, 
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e PARAMS.PAR plik zawierający parametry modelu (uwaga na wersję algorytmu) - 
format 2, 


e LISTATC.LST plik opisujący sekwencję masek zmian tworzoną przez program o 
nazwie CHANGE, a używaną przez inne programy - format 1, 


o LISTAMSK.LST plik opisujący sekwencję znalezionych masek - format 1. 


B.3 Opis zasadniczych programów wchodzących w 
skład pakietu 


Każdy z programów dostarczany jest w trzech wersjach: w wersji podstawowej, wersji na 
procesor 286 i minimum 3MB pamięci i w wersji ma procesor 386 i minimum 4MB wol- 
nej pamięci. Wersja podstawowa pozwala na przetwarzanie co najwyżej sekwencji trzech 
obrazów (skompilowana została pod BORLAND C wersja 3.1). Wersja 286 została skom- 
pilowana przy użyciu DOS-extendera LITE286. Pozwala ona na przetwarzanie sekwencji 
o długości do 20 obrazów. Niestety programy skompilowane w tej wersji działają znacznie 
wolniej niż pozostałe. Wersja 386 została skompilowana pod ZORTECH C wersja 3.1. 
Daje ona możliwość przetwarzania sekwencji do 40 obrazów. 

W całym pakiecie zakłada się, że wczytywane obrazy zapisane są w standardzie TIFF 
oraz, że rozmiar ich wynosi dokładnie 256 x 256 piksli. 


Programy mają dwa tryby pracy: 


e konwersacyjny - możliwe jest oglądanie wczytywanych obrazów, ręczne ustawianie 
poszczególnych parametrów, jak również oglądanie obrazów wynikowych. W niektó- 
rych programach wypisywane są informacje o obliczeniach cząstkowych. 


e wsadowy - program wywoływany w pliku do przetwarzania wsadowego systemu 
MS-DOS. W tym trybie wymagane jest podanie dodatkowych parametrów za nazwą 
wywoływanego programu. Wymagane parametry zostały opisane poniżej razem z 
krótkim omówieniem każdego programu. 


UWAGA: Programy w wersji 386 nie działają w trybie konwersacyjnym. 

Każdy z programów ma możliwość sporządzania protokółu z wykonywanych operacji 
(w trybie batchowym opcja ta ustawiona jest domyślnie). Protokół dopisywany jest do 
pliku o ustalonej nazwie PROTOKOL.TXT. 

W przypadku wykrycia błędu każdy z programów zapisuje komunikat o błędzie w 
pliku o nazwie ERROR.TXT. 

Wywołanie każdego z programów z parametrem /? wyświetla na ekranie krótką infor- 
mację o sposobie korzystania z niego. 


B.3.1 Program CHANGE 


Program ten znajduje sekwencję masek zmian w obrazie odpowiadających przetwarzanej 
sekwencji, o której informacja zapisana jest w pliku LISTA.LST. Ponieważ maska zmian 
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czasowych odpowiada dwóm kolejnym obrazom, dlatego obraz wykrytych zmian jest za- 
pisany pod nazwą pierwszego z dwóch porównywanych obrazów z dołączonymi na końcu 
dwoma literami — tc (zmiany czasowe). Program poza, odpowiednimi obrazami, tworzy 
również plik LISTATC.LST. W programie zaimplementowano pięć różnych metod detek- 
cji maski zmian. Dla czterech z tych metod znajdowane zmiany mogą być zaznaczane na 
obrazach wyjściowych w dwojaki sposób: 


e po wykryciu w masce zmian zaznaczane są wszystkie piksle okna, 
e po wykryciu zmian tylko środkowy piksel jest zaznaczany. 
W trybie wsadowym wyboru dokonuje się pisząc jedno ze słów: jeden albo cale. 


Najprostszą z dostępnych metod detekcji zmian jest metoda modułu różnicy dwóch 
wartości funkcji jasności w danym pikslu (wymagany parametr: wartość progu). 

Dwie kolejne metody to testy liniowy i kwadratowy Hsu-Nagela-Rekersa. Poza warto- 
ścią progu metody te wymagają podania wielkości okna testowego (zakłada się, że jest to 
okno kwadratowe). 

Następną metodą jest test Skifstada-Jaina. Metoda ta wymaga podania wartości progu 
(w przybliżeniu równej 0) oraz wielkości okna testowego. 

Ostatnia metoda to test Nieniewskiego-Pathaka opary na rozkładzie funkcji jasności na 
funkcje Walsha (na sztywno przyjmuje się wielkość okna testowego na 4 x 4). Wymaganym 
parametrem jest wartość progu. 


B.3.2 Program MEDIAN 


Program ten filtruje metodą mediany sekwencję masek, których nazwy zapisane są w pliku 
LISTA.LST. Poprawne wywołanie wymaga podania liczby nieparzystej z przedziału [3, 9] 
określającej wielkość okna filtru medianowego. 


B.3.3 Program BINFILTR 


Program jest implementacją algorytmu przedstawionego w rozdziale 9. W obrazie wyjścio- 
wym pozostawiane są tylko te piksle. które należą do konturu lub do wnętrza. Program 
może działać zarówno w trybie wsadowvin jak i konwersacyjnym. W trybie wsadowym 
wymagane jest podanie dwóch parametrów: nazwy obrazu filtrowanego oraz nazwy pod 
jaką ma być zapisany obraz przefiltrowany. Niestety nie istnieją wersje na procesory 286 
oraz 386. 


B.3.4 Program ICM 


Program powyższy jest implementacją algorytmu ICM (wersja 1.0 — dla modelu LB). Jed- 
nym z podstawowych parametrów jest liczba iteracji w każdym kroku jaka ma być wyko- 
nana dla każdych dwóch obrazów. Kolejny parametr określa co jest obserwacją: roznica 
czy modul. Trzeci z parametrów określa sposób skanowania obrazów: koding czy normal. 
Program wymaga czterech plików o sztywno ustalonych nazwach: PARAMS.PAR - plik 
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z parametrami, LISTA.LST - nazwy obrazów sekwencji wejściowej, LISTATC.LST - na- 
zwy obrazów sekwencji masek zmian, MASKA1.TIF - maska inicjująca korekcję maski 
obiektu dla pierwszego obrazu sekwencji. 


B.3.5 Program ICM2 


Powyższy program jest implementacją algorytmu ICM w wersji 2.0 (nowy model z dwuwy- 
miarowym wektorem obserwacji). Plik parametrów PARAMS.PAR różni się w stosunku 
do programu ICM. Poza tym wszystko jest identyczne. 


B.3.6 Program ICM4 


Powyższy program jest implementacją algorytmu ICM w wersji 4.0 (nowy model z trój- 
wymiarowym wektorem obserwacji). Plik parametrów PARAMS.PAR ma inną postać niż 
w przypadku programów ICM oraz ICM2. Poza tym wszystko jest identyczne. 


B.4 Opis pomocniczych programów wchodzących w 
skład pakietu 


B.4.1 Program GREY2MSK 


Program pomaga w utworzeniu obrazu binarnego odpowiadającego wejściowemu obrazowi 
z gradacją szarości. Obraz binarny, czyli maska, tworzona jest przez użytkownika. Po 
wczytaniu obrazu z gradacją szarości należy wybrać okno, w którym będzie tworzona 
maska obiektu. Następnie okno to zostanie powiększone i pokazane w prawej części ekranu. 
Klawiszami strzałek można przesuwać kursor. Zaznaczenie pojedynczego piksla odbywa 
się poprzez wciśnięcie klawisza ENTER. W razie potrzeby odznaczanie piksla również 
odbywa się za pomocą tego klawisza. Możliwe jest zarówno zaznaczanie całych wierszy 
jak i kolumn za pomocą klawiszy funkcyjnych. Po zakończeniu tworzenia maski można ją 
następnie zapisać na dysku wybierając odpowiednią opcję programu. 


B.4.2 Program SHOW_CON 


Program przeznaczony jest do nakładania konturu z obrazu binarnego na obraz z gradacją 
szarości. Nakładany obraz jest filtrowany. Filtracja może być dokonywana za pomocą 
prostego filtru kontur-wnętrze opisanego w rozdziale 9 lub może ona tylko polegać na 
usuwaniu izolowanych piksli. 


B.4.3 Program GAUSS2D 


Program oblicza wartości parametrów zgodności, tzn. średnie, wariancje oraz korelacje, 
dla modelu z trójwymiarowym wektorem obserwacji, korzystając z metody największej 
wiarogodności [Mor90]. Program wymaga istnienia na dysku w aktualnej kartotece dwóch 
plików LISTA.LST będącego spisem wejściowej sekwencji obrazów z gradacją szarości oraz 
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LISTAMSK.LST będącym spisem masek binarnych odpowiadających obrazom sekwencji 
z gradacją szarości (maski te mogą być np. znalezione za pomocą programu GREY2MSK). 
Ze względu na dużą ilość wymaganej pamięci, obydwie sekwencje nie mogą być dłuższe 
niż 10 obrazów. Efektem działania programu jest plik WYNIK.TXT, w którym wypisane 
są wartości wszystkich znalezionych parametrów. 


